Verwendung von Kurvenanpassung in Predictive Analytics - Kurvenanpassung von Dummies

Die Kurvenanpassung ist ein Prozess, der in der vorausschauenden Analyse verwendet wird. eine Kurve, die die mathematische Funktion darstellt, die am besten zu den tatsächlichen (ursprünglichen) Datenpunkten in einer Datenreihe passt.

Die Kurve kann entweder jeden Datenpunkt durchlaufen oder innerhalb der Masse der Daten bleiben, wobei einige Datenpunkte ignoriert werden, in der Hoffnung, Trends aus den Daten zu ziehen. In jedem Fall wird dem gesamten Datenbestand eine einzige mathematische Funktion zugewiesen, mit dem Ziel, alle Datenpunkte in eine Kurve einzupassen, die Trends abbildet und die Vorhersage unterstützt.

Die Kurvenanpassung kann auf drei Arten erreicht werden:

Durch Finden einer exakten Übereinstimmung für jeden Datenpunkt (ein Prozess mit der Bezeichnung Interpolation )
Indem Sie innerhalb bleiben die Masse der Daten, während einige Datenpunkte ignoriert werden, in der Hoffnung, Trends aus den Daten zu ziehen
Durch Verwendung von Datenglättung, um eine Funktion zu erhalten, die den geglätteten Graphen

Kurvenanpassung kann verwendet werden, um mögliche Datenpunkte auszufüllen, um fehlende Werte zu ersetzen oder um Analysten dabei zu helfen, die Daten zu visualisieren.

Wenn Sie an der Erstellung eines Vorhersageanalysemodells arbeiten, sollten Sie Ihr Modell nicht so anpassen, dass es perfekt zu Ihrem Datenbeispiel passt. Ein solches Modell wird kläglich scheitern, um ähnliche, aber unterschiedliche Datensätze außerhalb der Datenstichprobe vorherzusagen. Das Anpassen eines Modells an eine bestimmte Datenprobe ist ein klassischer Fehler, der als Überanpassung bezeichnet wird.

Die Probleme der Überanpassung

Im Wesentlichen ist das Überanpassen eines Modells das, was passiert, wenn Sie das Modell überholen, um nur Ihre Beispieldaten darzustellen - was keine gute Darstellung der Daten als Ganzes ist.. Ohne ein realistischeres Dataset kann das Modell dann mit Fehlern und Risiken geplagt werden, wenn es betriebsbereit ist - und die Konsequenzen für Ihr Unternehmen können schwerwiegend sein.

Die Überanpassung eines Modells ist eine häufige Falle, da Benutzer Modelle erstellen möchten, die funktionieren - und daher versucht sind, Variablen und Parameter zu optimieren, bis das Modell perfekt funktioniert -, wenn zu wenig Daten vorhanden sind. Irren ist menschlich. Glücklicherweise ist es auch menschlich, realistische Lösungen zu schaffen.

Um zu vermeiden, dass Ihr Modell mit Ihrem Beispiel-Dataset überfrachtet wird, stellen Sie sicher, dass ein Satz von Testdaten verfügbar ist, der von Ihren Beispieldaten getrennt ist. Dann können Sie die Leistung Ihres Modells unabhängig messen, bevor Sie das Modell in Betrieb nehmen.

Eine allgemeine Schutzmaßnahme gegen Überanpassung besteht also darin, Ihre Daten in zwei Teile aufzuteilen: Trainingsdaten und Testdaten. Die Leistung des Modells gegen die Testdaten wird Ihnen viel darüber erzählen, ob das Modell für die reale Welt bereit ist.

Eine weitere bewährte Methode besteht darin, sicherzustellen, dass Ihre Daten die größere Population der Domäne repräsentieren, für die Sie modellieren. Alles, was ein übertrainiertes Modell kennt, sind die spezifischen Merkmale des Beispieldatensatzes, für den es trainiert wurde. Wenn Sie das Modell nur auf (sagen wir) Schneeschuhverkäufe im Winter trainieren, seien Sie nicht überrascht, wenn es kläglich versagt, wenn es wieder mit Daten aus einer anderen Saison läuft.

Vermeidung von Überanpassung

Es lohnt sich, es zu wiederholen: Zu viele Optimierungen des Modells können zu Überanpassung führen. Ein solcher Tweak enthält zu viele Variablen in der Analyse. Halten Sie diese Variablen auf ein Minimum. Nehmen Sie nur Variablen auf, die Sie als absolut notwendig erachten - von denen Sie glauben, dass sie einen signifikanten Unterschied für das Ergebnis ausmachen.

Diese Einsicht kommt nur aus dem vertrauten Wissen über die Geschäftsdomäne, in der Sie sich befinden. Hier hilft Ihnen das Fachwissen von Domänenexperten, nicht in die Falle der Überanpassung zu geraten.

Hier finden Sie eine Checkliste mit Best Practices, mit denen Sie verhindern können, dass Ihr Modell übermäßig angepasst wird:

Wählen Sie einen Datensatz aus, mit dem Sie arbeiten möchten, der für die gesamte Bevölkerung repräsentativ ist.
Teilen Sie Ihren Datensatz in zwei Teile auf: Trainingsdaten und Testdaten.
Halten Sie die Variablen für die vorliegende Aufgabe auf ein gesundes Minimum.
Nutzen Sie die Hilfe von Experten für Domänenkenntnisse.

In der Börse ist beispielsweise eine klassische Analysetechnik Backtesting - ein Modell gegen historische Daten, um nach der besten Handelsstrategie zu suchen.

Nehmen wir an, dass der Analyst, nachdem er sein neues Modell mit Daten aus einem aktuellen Bullenmarkt erstellt hat und die Anzahl der in seiner Analyse verwendeten Variablen optimiert hat, eine optimale Handelsstrategie ausarbeitet - eine, die die höchsten Renditen erzielen würde. wenn könnte er zurückgehen und nur während des Jahres handeln, das die Testdaten produziert hat. Leider kann er nicht. Wenn er versucht, dieses Modell in einem aktuellen Bärenmarkt anzuwenden, schauen Sie sich unten Folgendes an: Er wird Verluste hinnehmen, indem er ein Modell anwendet, das für einen engen Zeitraum optimiert ist und Bedingungen enthält, die nicht den aktuellen Realitäten entsprechen. (Soviel zu hypothetischen Gewinnen.)

Das Modell funktionierte nur für diesen verschwundenen Bullenmarkt, weil es übertrainiert war und die Merkmale des Kontextes enthielt, aus dem die Beispieldaten hervorgingen - komplett mit seinen Besonderheiten, Ausreißern und Mängeln. Alle Umstände, die diesen Datensatz umgeben, werden wahrscheinlich nicht in der Zukunft oder in einer wahren Repräsentation der gesamten Bevölkerung wiederholt werden - aber sie tauchten alle in dem überarbeiteten Modell auf.

Wenn die Ausgabe eines Modells zu genau ist, betrachten Sie diesen Hinweis als einen genaueren Blick. Wenden Sie die Hilfe von Experten für Domänenkenntnisse an, um zu sehen, ob Ihre Ergebnisse wirklich zu gut sind, um wahr zu sein, und führen Sie dieses Modell auf weiteren Testdaten für weitere Vergleiche aus.