Zuhause Persönliche Finanzen Verwendung von Kurvenanpassung in Predictive Analytics - Kurvenanpassung von Dummies

Verwendung von Kurvenanpassung in Predictive Analytics - Kurvenanpassung von Dummies

Inhaltsverzeichnis:

Video: OriginLab® Origin: Datenimport Teil2 2024

Video: OriginLab® Origin: Datenimport Teil2 2024
Anonim

Die Kurvenanpassung ist ein Prozess, der in der vorausschauenden Analyse verwendet wird. eine Kurve, die die mathematische Funktion darstellt, die am besten zu den tatsächlichen (ursprünglichen) Datenpunkten in einer Datenreihe passt.

Die Kurve kann entweder jeden Datenpunkt durchlaufen oder innerhalb der Masse der Daten bleiben, wobei einige Datenpunkte ignoriert werden, in der Hoffnung, Trends aus den Daten zu ziehen. In jedem Fall wird dem gesamten Datenbestand eine einzige mathematische Funktion zugewiesen, mit dem Ziel, alle Datenpunkte in eine Kurve einzupassen, die Trends abbildet und die Vorhersage unterstützt.

Die Kurvenanpassung kann auf drei Arten erreicht werden:

  • Durch Finden einer exakten Übereinstimmung für jeden Datenpunkt (ein Prozess mit der Bezeichnung Interpolation )

  • Indem Sie innerhalb bleiben die Masse der Daten, während einige Datenpunkte ignoriert werden, in der Hoffnung, Trends aus den Daten zu ziehen

  • Durch Verwendung von Datenglättung, um eine Funktion zu erhalten, die den geglätteten Graphen

Kurvenanpassung kann verwendet werden, um mögliche Datenpunkte auszufüllen, um fehlende Werte zu ersetzen oder um Analysten dabei zu helfen, die Daten zu visualisieren.

Wenn Sie an der Erstellung eines Vorhersageanalysemodells arbeiten, sollten Sie Ihr Modell nicht so anpassen, dass es perfekt zu Ihrem Datenbeispiel passt. Ein solches Modell wird kläglich scheitern, um ähnliche, aber unterschiedliche Datensätze außerhalb der Datenstichprobe vorherzusagen. Das Anpassen eines Modells an eine bestimmte Datenprobe ist ein klassischer Fehler, der als Überanpassung bezeichnet wird.

Die Probleme der Überanpassung

Im Wesentlichen ist das Überanpassen eines Modells das, was passiert, wenn Sie das Modell überholen, um nur Ihre Beispieldaten darzustellen - was keine gute Darstellung der Daten als Ganzes ist.. Ohne ein realistischeres Dataset kann das Modell dann mit Fehlern und Risiken geplagt werden, wenn es betriebsbereit ist - und die Konsequenzen für Ihr Unternehmen können schwerwiegend sein.

Die Überanpassung eines Modells ist eine häufige Falle, da Benutzer Modelle erstellen möchten, die funktionieren - und daher versucht sind, Variablen und Parameter zu optimieren, bis das Modell perfekt funktioniert -, wenn zu wenig Daten vorhanden sind. Irren ist menschlich. Glücklicherweise ist es auch menschlich, realistische Lösungen zu schaffen.

Um zu vermeiden, dass Ihr Modell mit Ihrem Beispiel-Dataset überfrachtet wird, stellen Sie sicher, dass ein Satz von Testdaten verfügbar ist, der von Ihren Beispieldaten getrennt ist. Dann können Sie die Leistung Ihres Modells unabhängig messen, bevor Sie das Modell in Betrieb nehmen.

Eine allgemeine Schutzmaßnahme gegen Überanpassung besteht also darin, Ihre Daten in zwei Teile aufzuteilen: Trainingsdaten und Testdaten. Die Leistung des Modells gegen die Testdaten wird Ihnen viel darüber erzählen, ob das Modell für die reale Welt bereit ist.

Eine weitere bewährte Methode besteht darin, sicherzustellen, dass Ihre Daten die größere Population der Domäne repräsentieren, für die Sie modellieren. Alles, was ein übertrainiertes Modell kennt, sind die spezifischen Merkmale des Beispieldatensatzes, für den es trainiert wurde. Wenn Sie das Modell nur auf (sagen wir) Schneeschuhverkäufe im Winter trainieren, seien Sie nicht überrascht, wenn es kläglich versagt, wenn es wieder mit Daten aus einer anderen Saison läuft.

Vermeidung von Überanpassung

Es lohnt sich, es zu wiederholen: Zu viele Optimierungen des Modells können zu Überanpassung führen. Ein solcher Tweak enthält zu viele Variablen in der Analyse. Halten Sie diese Variablen auf ein Minimum. Nehmen Sie nur Variablen auf, die Sie als absolut notwendig erachten - von denen Sie glauben, dass sie einen signifikanten Unterschied für das Ergebnis ausmachen.

Diese Einsicht kommt nur aus dem vertrauten Wissen über die Geschäftsdomäne, in der Sie sich befinden. Hier hilft Ihnen das Fachwissen von Domänenexperten, nicht in die Falle der Überanpassung zu geraten.

Hier finden Sie eine Checkliste mit Best Practices, mit denen Sie verhindern können, dass Ihr Modell übermäßig angepasst wird:

  • Wählen Sie einen Datensatz aus, mit dem Sie arbeiten möchten, der für die gesamte Bevölkerung repräsentativ ist.

  • Teilen Sie Ihren Datensatz in zwei Teile auf: Trainingsdaten und Testdaten.

  • Halten Sie die Variablen für die vorliegende Aufgabe auf ein gesundes Minimum.

  • Nutzen Sie die Hilfe von Experten für Domänenkenntnisse.

In der Börse ist beispielsweise eine klassische Analysetechnik Backtesting - ein Modell gegen historische Daten, um nach der besten Handelsstrategie zu suchen.

Nehmen wir an, dass der Analyst, nachdem er sein neues Modell mit Daten aus einem aktuellen Bullenmarkt erstellt hat und die Anzahl der in seiner Analyse verwendeten Variablen optimiert hat, eine optimale Handelsstrategie ausarbeitet - eine, die die höchsten Renditen erzielen würde. wenn könnte er zurückgehen und nur während des Jahres handeln, das die Testdaten produziert hat. Leider kann er nicht. Wenn er versucht, dieses Modell in einem aktuellen Bärenmarkt anzuwenden, schauen Sie sich unten Folgendes an: Er wird Verluste hinnehmen, indem er ein Modell anwendet, das für einen engen Zeitraum optimiert ist und Bedingungen enthält, die nicht den aktuellen Realitäten entsprechen. (Soviel zu hypothetischen Gewinnen.)

Das Modell funktionierte nur für diesen verschwundenen Bullenmarkt, weil es übertrainiert war und die Merkmale des Kontextes enthielt, aus dem die Beispieldaten hervorgingen - komplett mit seinen Besonderheiten, Ausreißern und Mängeln. Alle Umstände, die diesen Datensatz umgeben, werden wahrscheinlich nicht in der Zukunft oder in einer wahren Repräsentation der gesamten Bevölkerung wiederholt werden - aber sie tauchten alle in dem überarbeiteten Modell auf.

Wenn die Ausgabe eines Modells zu genau ist, betrachten Sie diesen Hinweis als einen genaueren Blick. Wenden Sie die Hilfe von Experten für Domänenkenntnisse an, um zu sehen, ob Ihre Ergebnisse wirklich zu gut sind, um wahr zu sein, und führen Sie dieses Modell auf weiteren Testdaten für weitere Vergleiche aus.

Verwendung von Kurvenanpassung in Predictive Analytics - Kurvenanpassung von Dummies

Die Wahl des Herausgebers

Netzwerkgrundlagen: IPv6-Adresse Vereinfachte Notation - Dummies

Netzwerkgrundlagen: IPv6-Adresse Vereinfachte Notation - Dummies

Bei der Arbeit mit IPv6-Adressen kann es viel Zeit in Anspruch nehmen. schreibe deine Adressen - immerhin sind sie 128 Bit lang. Um das Leben einfacher zu machen, gibt es einige Regeln, die Sie verwenden können, um diese Schreibweise zu verdichten: Führende Nullen in der Adresse sind optional. Für einen Adressblock wäre also 0A45 gleich A45, ...

Netzwerkgrundlagen: IP-Netzwerkklassen - Dummies

Netzwerkgrundlagen: IP-Netzwerkklassen - Dummies

Netzwerkadressierungsarchitektur unterteilt den Adressraum für Internet Protocol Version 4 (IPv4 ) in fünf Adressklassen. Jede Klasse, die in den ersten vier Bits der Adresse codiert ist, definiert entweder eine andere Netzwerkgröße, d.h. e. Anzahl der Hosts für Unicast-Adressen (Klassen A, B, C) oder Multicast-Netzwerk (Klasse D). Die fünfte Klasse (E) address ...

Netzwerkgrundlagen: Netzwerkport Übersicht - Dummys

Netzwerkgrundlagen: Netzwerkport Übersicht - Dummys

In TCP / IP- und UDP-Netzwerken ist ein Port ein Endpunkt eine logische Verbindung. Die Portnummer gibt an, um welchen Port es sich handelt. Port 80 wird beispielsweise für HTTP-Datenverkehr verwendet. Wenn Sie einen Befehl wie netstat -n unter Microsoft Windows oder Linux verwenden, sehen Sie eine Auflistung der lokalen Adressen ...

Die Wahl des Herausgebers

Excel-Dashboards: Wie Sie Ihr erstes Makro aufzeichnen - Dummies

Excel-Dashboards: Wie Sie Ihr erstes Makro aufzeichnen - Dummies

Wenn Sie ein Anfänger auf dem Dashboard sind Automatisierung in Excel ist es unwahrscheinlich, dass Sie den VBA-Code (Visual Basic für Applikationen) von Hand schreiben können, um Makros zu erstellen. Ohne vollständige Kenntnis des Objektmodells und der Syntax von Excel wäre das Schreiben des benötigten Codes für die meisten Anfänger unmöglich. Hier können Sie ein Makro aufzeichnen ...

Excel-Formelberechnungsmodi - Dummys

Excel-Formelberechnungsmodi - Dummys

Standardmäßig ist Excel so eingestellt, dass es automatisch neu berechnet wird. Wenn Sie eine der Zellen ändern, auf die in einer bestimmten Formel verwiesen wird, berechnet Excel diese Formel automatisch neu, sodass ein korrektes Ergebnis basierend auf den Änderungen in den Zellbezügen zurückgegeben wird. Wenn die Formel, die neu berechnet wird, auch als Zellenreferenz in anderen verwendet wird ...

Excel Formelfehler - Dummies

Excel Formelfehler - Dummies

Es ist nicht immer glatt, wenn Sie mit Excel-Formeln arbeiten. Manchmal gibt eine Formel einen Fehlerwert anstelle des erwarteten Werts zurück. Excel hilft Ihnen, das Problem zu identifizieren, indem Sie einen von sieben Fehlerwerten zurückgeben: # DIV / 0! , # N / A, #NAME? , #NULL! , #NUM! , #REF! und #WERT! , erklärt in der folgenden Liste: # DIV / 0! : ...

Die Wahl des Herausgebers

Teilen, Weiterverbreiten und Kommentieren von Google+ Posts - Dummies

Teilen, Weiterverbreiten und Kommentieren von Google+ Posts - Dummies

, Wenn Sie mit der Verwendung und Veröffentlichung beginnen Bei Google+ möchten Sie gelegentlich Links und Bilder teilen, die Beiträge anderer freigeben, ihre Beiträge kommentieren und andere in Ihren eigenen Google+ Beiträgen erwähnen. Vielleicht fragen Sie sich auch, wie Sie andere dazu bringen, Ihre eigenen Beiträge öfter zu kommentieren. Teilen von Links und Bildern in Google+ So geben Sie ein ...

Teilen Ihrer Google+ Posts mit bestimmten Personen - Dummies

Teilen Ihrer Google+ Posts mit bestimmten Personen - Dummies

Beiträge auf Google+ sind ganz einfach und können posten Text, Links, Fotos, Videos und sogar Ihren aktuellen Standort. Der schwierigste Teil des Beitrags auf Google+ besteht darin, auszuwählen, wen Sie Ihren Beitrag sehen möchten. Google+ verwendet Ihre Kreise, um festzulegen, wer Ihre Beiträge sehen kann. Kreise sind etwas einfacher als Listen, weil ...

Taggen von Personen in Google+ Fotos - Dummies

Taggen von Personen in Google+ Fotos - Dummies

Sie können Personen in Ihren Kreisen auf jedem Foto auf Google+ markieren. Wenn Sie eine Person in einem Foto taggen, wird diese Person über ihre Google+ Benachrichtigungen benachrichtigt. Sie können dann das Tag entfernen oder genehmigen, und das Foto wird mit dem Tag des Namens dieser Person darin angezeigt. Um jemanden zu markieren, ...