Video: What is Financial Fair Play & Player Amortisation? 2024
Der Validierungsansatz für maschinelles Lernen ist eine Untersuchung eines möglichen Abhilfemaßnahmeinnenfalls. Ein In-Sampling-Bias kann Ihren Daten zustoßen, bevor maschinelles Lernen in die Tat umgesetzt wird, und verursacht eine hohe Varianz der folgenden Schätzungen. Darüber hinaus sollten Sie auf Leckagefallen achten, die auftreten können, wenn einige Informationen aus der außerhalb der Stichprobe befindlichen Daten in die Daten der Stichprobe übergehen. Dieses Problem kann auftreten, wenn Sie die Daten vorbereiten oder nachdem Ihr maschinelles Lernmodell fertig ist und funktioniert.
Das Mittel, das Ensemble von Prädiktoren genannt wird, funktioniert perfekt, wenn Ihre Trainingsstichprobe nicht vollständig verzerrt ist und ihre Verteilung sich von der außerhalb der Stichprobe liegenden unterscheidet, aber nicht auf irreparable Weise, z. wie wenn alle Klassen vorhanden sind, aber nicht im richtigen Verhältnis (als Beispiel). In solchen Fällen sind Ihre Ergebnisse von einer gewissen Varianz der Schätzungen betroffen, die Sie möglicherweise auf eine von mehreren Arten stabilisieren können: durch Resampling, wie beim Bootstrapping; durch Unterabtasten (Entnehmen einer Probe der Probe); oder indem kleinere Proben verwendet werden (was die Verzerrung erhöht).
Um zu verstehen, wie das Ensemble so effektiv funktioniert, visualisieren Sie das Bild eines Stierauges. Wenn Ihre Stichprobe die Vorhersagen beeinflusst, werden einige Vorhersagen genau sein und andere werden zufällig falsch sein. Wenn Sie Ihre Stichprobe ändern, werden die richtigen Vorhersagen weiterhin korrekt sein, aber die falschen Vorhersagen beginnen mit Variationen zwischen verschiedenen Werten. Einige Werte werden die genaue Vorhersage sein, nach der Sie suchen; andere oszillieren einfach um den richtigen.
Wenn Sie die Ergebnisse vergleichen, können Sie erraten, dass das, was wiederkehrt, die richtige Antwort ist. Sie können auch einen Durchschnitt der Antworten und erraten, dass die richtige Antwort in der Mitte der Werte sein sollte. Mit dem Bulls-Eye-Spiel können Sie überlagernde Fotos verschiedener Spiele visualisieren: Wenn das Problem Varianz ist, werden Sie letztendlich vermuten, dass sich das Ziel in der am häufigsten getroffenen Region oder zumindest in der Mitte aller Schüsse befindet.
In den meisten Fällen erweist sich ein solcher Ansatz als richtig und verbessert Ihre Prognosen für maschinelles Lernen erheblich. Wenn es sich bei Ihrem Problem um Bias und nicht um Varianz handelt, verursacht die Verwendung von Ensembling keine Schäden, wenn Sie nicht zu wenige Samples abtasten. Eine gute Faustregel für das Subsampling besteht darin, eine Stichprobe von 70 bis 90 Prozent im Vergleich zu den ursprünglichen In-Sample-Daten zu nehmen. Wenn Sie Zusammenstellungsarbeit leisten möchten, sollten Sie Folgendes tun:
- Iterieren Sie eine große Anzahl von Malen durch Ihre Daten und Modelle (von mindestens drei Iterationen bis idealerweise Hunderte von Malen).
- Jedes Mal, wenn Sie iterieren, müssen Sie Ihre In-Sample-Daten abfragen (oder auch Bootstrap).
- Verwenden Sie das maschinelle Lernen für das Modell in den neu abgetasteten Daten und prognostizieren Sie die Ergebnisse außerhalb der Stichprobe. Speichern Sie diese Ergebnisse zur späteren Verwendung.
- Am Ende der Iterationen nehmen Sie für jeden Out-of-Sample-Fall, den Sie vorhersagen möchten, all seine Vorhersagen und mitteln diese, wenn Sie eine Regression durchführen. Nehmen Sie die häufigste Klasse, wenn Sie eine Klassifizierung durchführen.
Leckagefallen können Sie überraschen, da sie sich als unbekannte und unentdeckte Quelle von Problemen mit Ihren maschinellen Lernprozessen erweisen können. Das Problem ist, zu snooping, oder sonst wie die Out-of-Sample-Daten zu sehr zu beobachten und sich zu oft darauf einzustellen. Kurz gesagt, Snooping ist eine Art Überanpassung - und zwar nicht nur an den Trainingsdaten, sondern auch an den Testdaten, wodurch das Überanpassungsproblem selbst schwieriger zu erkennen ist, bis Sie neue Daten erhalten.
Gewöhnlich erkennen Sie, dass das Problem Snooping ist, wenn Sie den Algorithmus für maschinelles Lernen bereits auf Ihr Unternehmen oder einen Service für die Öffentlichkeit angewendet haben, wodurch das Problem zu einem Thema wird, das jeder sehen kann.
Sie können das Snooping auf zwei Arten vermeiden. Erstens, wenn Sie mit den Daten arbeiten, achten Sie darauf, die Trainings-, Validierungs- und Testdaten sauber zu trennen. Nehmen Sie bei der Verarbeitung niemals irgendwelche Informationen aus der Validierung oder Prüfung mit, auch nicht die einfachsten und unschuldigsten Beispiele. Noch schlimmer ist es, eine komplexe Transformation unter Verwendung aller Daten anzuwenden.
Im Finanzwesen ist es beispielsweise bekannt, dass die Berechnung des Mittelwerts und der Standardabweichung (die Ihnen viel über Marktbedingungen und Risiken aussagen kann) aus allen Trainings- und Testdaten wertvolle Informationen über Ihre Modelle preisgibt. Wenn es zu Leckverlusten kommt, führen maschinelle Lernalgorithmen eher Vorhersagen auf dem Testset durch als die Daten außerhalb der Stichprobe von den Märkten, was bedeutet, dass sie überhaupt nicht funktionierten, was zu einem Geldverlust führte.
Überprüfen Sie die Leistung Ihrer Out-of-Sample-Beispiele. In der Tat können Sie einige Informationen aus Ihrem Snooping auf die Testergebnisse zurückbringen, um Ihnen zu helfen, festzustellen, dass bestimmte Parameter besser sind als andere, oder Sie dazu führen, einen maschinellen Lernalgorithmus anstelle eines anderen auszuwählen. Wenden Sie für jedes Modell oder jeden Parameter Ihre Auswahl basierend auf Kreuzvalidierungsergebnissen oder aus dem Validierungsmuster an. Fallen Sie niemals aus Ihren Out-of-Sample-Daten aus oder Sie werden es später bereuen.