Zuhause Persönliche Finanzen Verwendung von Kurvenanpassung in Predictive Analytics - Kurvenanpassung von Dummies

Verwendung von Kurvenanpassung in Predictive Analytics - Kurvenanpassung von Dummies

Inhaltsverzeichnis:

Video: OriginLab® Origin: Datenimport Teil2 2025

Video: OriginLab® Origin: Datenimport Teil2 2025
Anonim

Die Kurvenanpassung ist ein Prozess, der in der vorausschauenden Analyse verwendet wird. eine Kurve, die die mathematische Funktion darstellt, die am besten zu den tatsächlichen (ursprünglichen) Datenpunkten in einer Datenreihe passt.

Die Kurve kann entweder jeden Datenpunkt durchlaufen oder innerhalb der Masse der Daten bleiben, wobei einige Datenpunkte ignoriert werden, in der Hoffnung, Trends aus den Daten zu ziehen. In jedem Fall wird dem gesamten Datenbestand eine einzige mathematische Funktion zugewiesen, mit dem Ziel, alle Datenpunkte in eine Kurve einzupassen, die Trends abbildet und die Vorhersage unterstützt.

Die Kurvenanpassung kann auf drei Arten erreicht werden:

  • Durch Finden einer exakten Übereinstimmung für jeden Datenpunkt (ein Prozess mit der Bezeichnung Interpolation )

  • Indem Sie innerhalb bleiben die Masse der Daten, während einige Datenpunkte ignoriert werden, in der Hoffnung, Trends aus den Daten zu ziehen

  • Durch Verwendung von Datenglättung, um eine Funktion zu erhalten, die den geglätteten Graphen

Kurvenanpassung kann verwendet werden, um mögliche Datenpunkte auszufüllen, um fehlende Werte zu ersetzen oder um Analysten dabei zu helfen, die Daten zu visualisieren.

Wenn Sie an der Erstellung eines Vorhersageanalysemodells arbeiten, sollten Sie Ihr Modell nicht so anpassen, dass es perfekt zu Ihrem Datenbeispiel passt. Ein solches Modell wird kläglich scheitern, um ähnliche, aber unterschiedliche Datensätze außerhalb der Datenstichprobe vorherzusagen. Das Anpassen eines Modells an eine bestimmte Datenprobe ist ein klassischer Fehler, der als Überanpassung bezeichnet wird.

Die Probleme der Überanpassung

Im Wesentlichen ist das Überanpassen eines Modells das, was passiert, wenn Sie das Modell überholen, um nur Ihre Beispieldaten darzustellen - was keine gute Darstellung der Daten als Ganzes ist.. Ohne ein realistischeres Dataset kann das Modell dann mit Fehlern und Risiken geplagt werden, wenn es betriebsbereit ist - und die Konsequenzen für Ihr Unternehmen können schwerwiegend sein.

Die Überanpassung eines Modells ist eine häufige Falle, da Benutzer Modelle erstellen möchten, die funktionieren - und daher versucht sind, Variablen und Parameter zu optimieren, bis das Modell perfekt funktioniert -, wenn zu wenig Daten vorhanden sind. Irren ist menschlich. Glücklicherweise ist es auch menschlich, realistische Lösungen zu schaffen.

Um zu vermeiden, dass Ihr Modell mit Ihrem Beispiel-Dataset überfrachtet wird, stellen Sie sicher, dass ein Satz von Testdaten verfügbar ist, der von Ihren Beispieldaten getrennt ist. Dann können Sie die Leistung Ihres Modells unabhängig messen, bevor Sie das Modell in Betrieb nehmen.

Eine allgemeine Schutzmaßnahme gegen Überanpassung besteht also darin, Ihre Daten in zwei Teile aufzuteilen: Trainingsdaten und Testdaten. Die Leistung des Modells gegen die Testdaten wird Ihnen viel darüber erzählen, ob das Modell für die reale Welt bereit ist.

Eine weitere bewährte Methode besteht darin, sicherzustellen, dass Ihre Daten die größere Population der Domäne repräsentieren, für die Sie modellieren. Alles, was ein übertrainiertes Modell kennt, sind die spezifischen Merkmale des Beispieldatensatzes, für den es trainiert wurde. Wenn Sie das Modell nur auf (sagen wir) Schneeschuhverkäufe im Winter trainieren, seien Sie nicht überrascht, wenn es kläglich versagt, wenn es wieder mit Daten aus einer anderen Saison läuft.

Vermeidung von Überanpassung

Es lohnt sich, es zu wiederholen: Zu viele Optimierungen des Modells können zu Überanpassung führen. Ein solcher Tweak enthält zu viele Variablen in der Analyse. Halten Sie diese Variablen auf ein Minimum. Nehmen Sie nur Variablen auf, die Sie als absolut notwendig erachten - von denen Sie glauben, dass sie einen signifikanten Unterschied für das Ergebnis ausmachen.

Diese Einsicht kommt nur aus dem vertrauten Wissen über die Geschäftsdomäne, in der Sie sich befinden. Hier hilft Ihnen das Fachwissen von Domänenexperten, nicht in die Falle der Überanpassung zu geraten.

Hier finden Sie eine Checkliste mit Best Practices, mit denen Sie verhindern können, dass Ihr Modell übermäßig angepasst wird:

  • Wählen Sie einen Datensatz aus, mit dem Sie arbeiten möchten, der für die gesamte Bevölkerung repräsentativ ist.

  • Teilen Sie Ihren Datensatz in zwei Teile auf: Trainingsdaten und Testdaten.

  • Halten Sie die Variablen für die vorliegende Aufgabe auf ein gesundes Minimum.

  • Nutzen Sie die Hilfe von Experten für Domänenkenntnisse.

In der Börse ist beispielsweise eine klassische Analysetechnik Backtesting - ein Modell gegen historische Daten, um nach der besten Handelsstrategie zu suchen.

Nehmen wir an, dass der Analyst, nachdem er sein neues Modell mit Daten aus einem aktuellen Bullenmarkt erstellt hat und die Anzahl der in seiner Analyse verwendeten Variablen optimiert hat, eine optimale Handelsstrategie ausarbeitet - eine, die die höchsten Renditen erzielen würde. wenn könnte er zurückgehen und nur während des Jahres handeln, das die Testdaten produziert hat. Leider kann er nicht. Wenn er versucht, dieses Modell in einem aktuellen Bärenmarkt anzuwenden, schauen Sie sich unten Folgendes an: Er wird Verluste hinnehmen, indem er ein Modell anwendet, das für einen engen Zeitraum optimiert ist und Bedingungen enthält, die nicht den aktuellen Realitäten entsprechen. (Soviel zu hypothetischen Gewinnen.)

Das Modell funktionierte nur für diesen verschwundenen Bullenmarkt, weil es übertrainiert war und die Merkmale des Kontextes enthielt, aus dem die Beispieldaten hervorgingen - komplett mit seinen Besonderheiten, Ausreißern und Mängeln. Alle Umstände, die diesen Datensatz umgeben, werden wahrscheinlich nicht in der Zukunft oder in einer wahren Repräsentation der gesamten Bevölkerung wiederholt werden - aber sie tauchten alle in dem überarbeiteten Modell auf.

Wenn die Ausgabe eines Modells zu genau ist, betrachten Sie diesen Hinweis als einen genaueren Blick. Wenden Sie die Hilfe von Experten für Domänenkenntnisse an, um zu sehen, ob Ihre Ergebnisse wirklich zu gut sind, um wahr zu sein, und führen Sie dieses Modell auf weiteren Testdaten für weitere Vergleiche aus.

Verwendung von Kurvenanpassung in Predictive Analytics - Kurvenanpassung von Dummies

Die Wahl des Herausgebers

Zusammen zieht, um Sicherheitstestergebnisse für Reporting - Dummies

Zusammen zieht, um Sicherheitstestergebnisse für Reporting - Dummies

Zusammen zu ziehen, wenn Sie Sicherheitstestdaten haben - Von Screenshots und manuellen Beobachtungen bis hin zu detaillierten Berichten, die von den verschiedenen von Ihnen verwendeten Schwachstellen-Scannern erstellt wurden - was machen Sie damit? Sie müssen Ihre Dokumentation mit einem fein gezahnten Kamm durchgehen und alle Bereiche hervorheben, die hervorstechen. Base ...

Wie man Datenbank-Schwachstellen minimiert, um Hacked-Dummys

Wie man Datenbank-Schwachstellen minimiert, um Hacked-Dummys

Datenbank-Systeme wie Microsoft SQL Server zu vermeiden , MySQL und Oracle, haben hinter den Kulissen gelauert, aber ihr Wert und ihre Schwachstellen sind endlich in den Vordergrund gerückt. Ja, sogar das mächtige Orakel, das einmal für unbarmherzig gehalten wurde, ist anfällig für ähnliche Heldentaten wie seine Konkurrenz. Mit der Vielzahl von regulatorischen Anforderungen für die Datenbank ...

Zeitersparnis Installieren von vSphere 4. 1 - dummies

Zeitersparnis Installieren von vSphere 4. 1 - dummies

Installieren von VMware vSphere 4. 1 ist ein Komplexer Prozess; Sie sollten tun, was Sie können, um die Installation reibungsloser zu machen. Wenn Sie sich auf die Installation von vSphere vorbereiten, sollten Sie diese praktische Checkliste verwenden, um Zeit und Mühe zu sparen: Freigegebener Speicher: vSphere erfordert gemeinsam genutzten Speicher für Funktionen wie vMotion und ...

Die Wahl des Herausgebers

Wie man Abstammung interpretiert. com Suchergebnisse - Dummies

Wie man Abstammung interpretiert. com Suchergebnisse - Dummies

Ausführen eines Ancestry. Die Suche ist nur die halbe Miete. Im nächsten Teil werden die Suchergebnisse durchsucht, um nützliche Informationen zu Ihrem jeweiligen Vorfahren zu finden.

Wie man nach militärischen Aufzeichnungen sucht - dummies

Wie man nach militärischen Aufzeichnungen sucht - dummies

Eine interessante Sammlung von militärischen Aufzeichnungen, die man für seine Genealogie suchen kann, ist die Soldaten- und Seemannssystem des Bürgerkriegs (CWSS). Die CWSS-Website ist ein Gemeinschaftsprojekt des National Park Service, der Genealogical Society of Utah und der Federation of Genealogical Societies. Die Website enthält einen Index von mehr als 6. 3 Millionen Soldaten ...

Wie man lebenswichtige genealogische Aufzeichnungen liest - Attrappen

Wie man lebenswichtige genealogische Aufzeichnungen liest - Attrappen

Vitale Aufzeichnungen gehören zu den ersten Gruppen von Primärquellen, die normalerweise von Genealogen benutzt werden .. Diese Aufzeichnungen enthalten Schlüssel und normalerweise zuverlässige Informationen, da sie in der Nähe des Ereignisses erstellt wurden und ein Zeuge des Ereignisses die Informationen lieferte. (Außerhalb der Vereinigten Staaten werden lebenswichtige Aufzeichnungen oft als zivile Registrierungen bezeichnet.) Geburtsaufzeichnungen ...

Die Wahl des Herausgebers

Ermittlung des maximalen Gewinns (Verlust) für Optionskontrakte der Serie 7 Exam - Dummies

Ermittlung des maximalen Gewinns (Verlust) für Optionskontrakte der Serie 7 Exam - Dummies

Optionskontrakte bieten Anlegern Sicherheit und die Serie 7 erwartet, dass Sie den maximalen Gewinn und Verlust für diese bestimmen können. Wenn ein Anleger Optionskontrakte auf Wertpapiere kauft oder verkauft, die er besitzt, wählt er eine ausgezeichnete Möglichkeit, um sich vor Verlust zu schützen oder zusätzliche Gelder auf sein Konto zu bringen. ...

Informationen über Zinserträge für die Series 7 Exam - Dummies

Informationen über Zinserträge für die Series 7 Exam - Dummies

Für die Series 7 Prüfung müssen Sie verstehen, wie sich Dividenden, Zinsen, Kapitalgewinne und Kapitalverluste auf Anleger auswirken. Zinserträge, die Anleihegläubiger erhalten, können abhängig von der Art des Wertpapiers oder der gehaltenen Wertpapiere steuerpflichtig sein: Unternehmensanleihezinsen: Zinsen aus Unternehmensanleihen sind auf allen Ebenen steuerpflichtig (Bundes-, Staats- und ...

Verwendung der Mittelwertbildung für die Dollar-Kosten auf der Series 7-Prüfung - Dummies

Verwendung der Mittelwertbildung für die Dollar-Kosten auf der Series 7-Prüfung - Dummies

Wenn ein Investor die Dollar-Kosten-Mittelungsformel anwendet, investiert er periodisch den gleichen Dollarbetrag in dieselbe Investition. Die Serie 7 erwartet, dass Sie mit dieser Formel vertraut sind. Obwohl Mittelwertbildung für Dollar vor allem für Investmentfonds verwendet wird, können sie auch für andere Anlagen verwendet werden. Dollar Kosten Mittelung Vorteile ...