Zuhause Persönliche Finanzen Vermeidung von Sample-Bias und Leckagefallen im maschinellen Lernen - Dummies

Vermeidung von Sample-Bias und Leckagefallen im maschinellen Lernen - Dummies

Video: What is Financial Fair Play & Player Amortisation? 2025

Video: What is Financial Fair Play & Player Amortisation? 2025
Anonim

Der Validierungsansatz für maschinelles Lernen ist eine Untersuchung eines möglichen Abhilfemaßnahmeinnenfalls. Ein In-Sampling-Bias kann Ihren Daten zustoßen, bevor maschinelles Lernen in die Tat umgesetzt wird, und verursacht eine hohe Varianz der folgenden Schätzungen. Darüber hinaus sollten Sie auf Leckagefallen achten, die auftreten können, wenn einige Informationen aus der außerhalb der Stichprobe befindlichen Daten in die Daten der Stichprobe übergehen. Dieses Problem kann auftreten, wenn Sie die Daten vorbereiten oder nachdem Ihr maschinelles Lernmodell fertig ist und funktioniert.

Das Mittel, das Ensemble von Prädiktoren genannt wird, funktioniert perfekt, wenn Ihre Trainingsstichprobe nicht vollständig verzerrt ist und ihre Verteilung sich von der außerhalb der Stichprobe liegenden unterscheidet, aber nicht auf irreparable Weise, z. wie wenn alle Klassen vorhanden sind, aber nicht im richtigen Verhältnis (als Beispiel). In solchen Fällen sind Ihre Ergebnisse von einer gewissen Varianz der Schätzungen betroffen, die Sie möglicherweise auf eine von mehreren Arten stabilisieren können: durch Resampling, wie beim Bootstrapping; durch Unterabtasten (Entnehmen einer Probe der Probe); oder indem kleinere Proben verwendet werden (was die Verzerrung erhöht).

Um zu verstehen, wie das Ensemble so effektiv funktioniert, visualisieren Sie das Bild eines Stierauges. Wenn Ihre Stichprobe die Vorhersagen beeinflusst, werden einige Vorhersagen genau sein und andere werden zufällig falsch sein. Wenn Sie Ihre Stichprobe ändern, werden die richtigen Vorhersagen weiterhin korrekt sein, aber die falschen Vorhersagen beginnen mit Variationen zwischen verschiedenen Werten. Einige Werte werden die genaue Vorhersage sein, nach der Sie suchen; andere oszillieren einfach um den richtigen.

Wenn Sie die Ergebnisse vergleichen, können Sie erraten, dass das, was wiederkehrt, die richtige Antwort ist. Sie können auch einen Durchschnitt der Antworten und erraten, dass die richtige Antwort in der Mitte der Werte sein sollte. Mit dem Bulls-Eye-Spiel können Sie überlagernde Fotos verschiedener Spiele visualisieren: Wenn das Problem Varianz ist, werden Sie letztendlich vermuten, dass sich das Ziel in der am häufigsten getroffenen Region oder zumindest in der Mitte aller Schüsse befindet.

In den meisten Fällen erweist sich ein solcher Ansatz als richtig und verbessert Ihre Prognosen für maschinelles Lernen erheblich. Wenn es sich bei Ihrem Problem um Bias und nicht um Varianz handelt, verursacht die Verwendung von Ensembling keine Schäden, wenn Sie nicht zu wenige Samples abtasten. Eine gute Faustregel für das Subsampling besteht darin, eine Stichprobe von 70 bis 90 Prozent im Vergleich zu den ursprünglichen In-Sample-Daten zu nehmen. Wenn Sie Zusammenstellungsarbeit leisten möchten, sollten Sie Folgendes tun:

  • Iterieren Sie eine große Anzahl von Malen durch Ihre Daten und Modelle (von mindestens drei Iterationen bis idealerweise Hunderte von Malen).
  • Jedes Mal, wenn Sie iterieren, müssen Sie Ihre In-Sample-Daten abfragen (oder auch Bootstrap).
  • Verwenden Sie das maschinelle Lernen für das Modell in den neu abgetasteten Daten und prognostizieren Sie die Ergebnisse außerhalb der Stichprobe. Speichern Sie diese Ergebnisse zur späteren Verwendung.
  • Am Ende der Iterationen nehmen Sie für jeden Out-of-Sample-Fall, den Sie vorhersagen möchten, all seine Vorhersagen und mitteln diese, wenn Sie eine Regression durchführen. Nehmen Sie die häufigste Klasse, wenn Sie eine Klassifizierung durchführen.

Leckagefallen können Sie überraschen, da sie sich als unbekannte und unentdeckte Quelle von Problemen mit Ihren maschinellen Lernprozessen erweisen können. Das Problem ist, zu snooping, oder sonst wie die Out-of-Sample-Daten zu sehr zu beobachten und sich zu oft darauf einzustellen. Kurz gesagt, Snooping ist eine Art Überanpassung - und zwar nicht nur an den Trainingsdaten, sondern auch an den Testdaten, wodurch das Überanpassungsproblem selbst schwieriger zu erkennen ist, bis Sie neue Daten erhalten.

Gewöhnlich erkennen Sie, dass das Problem Snooping ist, wenn Sie den Algorithmus für maschinelles Lernen bereits auf Ihr Unternehmen oder einen Service für die Öffentlichkeit angewendet haben, wodurch das Problem zu einem Thema wird, das jeder sehen kann.

Sie können das Snooping auf zwei Arten vermeiden. Erstens, wenn Sie mit den Daten arbeiten, achten Sie darauf, die Trainings-, Validierungs- und Testdaten sauber zu trennen. Nehmen Sie bei der Verarbeitung niemals irgendwelche Informationen aus der Validierung oder Prüfung mit, auch nicht die einfachsten und unschuldigsten Beispiele. Noch schlimmer ist es, eine komplexe Transformation unter Verwendung aller Daten anzuwenden.

Im Finanzwesen ist es beispielsweise bekannt, dass die Berechnung des Mittelwerts und der Standardabweichung (die Ihnen viel über Marktbedingungen und Risiken aussagen kann) aus allen Trainings- und Testdaten wertvolle Informationen über Ihre Modelle preisgibt. Wenn es zu Leckverlusten kommt, führen maschinelle Lernalgorithmen eher Vorhersagen auf dem Testset durch als die Daten außerhalb der Stichprobe von den Märkten, was bedeutet, dass sie überhaupt nicht funktionierten, was zu einem Geldverlust führte.

Überprüfen Sie die Leistung Ihrer Out-of-Sample-Beispiele. In der Tat können Sie einige Informationen aus Ihrem Snooping auf die Testergebnisse zurückbringen, um Ihnen zu helfen, festzustellen, dass bestimmte Parameter besser sind als andere, oder Sie dazu führen, einen maschinellen Lernalgorithmus anstelle eines anderen auszuwählen. Wenden Sie für jedes Modell oder jeden Parameter Ihre Auswahl basierend auf Kreuzvalidierungsergebnissen oder aus dem Validierungsmuster an. Fallen Sie niemals aus Ihren Out-of-Sample-Daten aus oder Sie werden es später bereuen.

Vermeidung von Sample-Bias und Leckagefallen im maschinellen Lernen - Dummies

Die Wahl des Herausgebers

Web Marketing: Warum Suchmaschinen existieren - Dummies

Web Marketing: Warum Suchmaschinen existieren - Dummies

Wenn Sie verstehen, warum Suchmaschinen existieren, können sie für Sie in Ihrem Web-Marketing-Geschäft arbeiten. Also, hier ist eine kurze Lektion, warum Suchmaschinen existieren und wie Sie sie nutzen können, um Geld zu verdienen. Suchmaschinen liefern Relevanz. Relevanz bedeutet, dass Besucher auf Suchergebnisse klicken und zufrieden sind mit ...

Was sind Tür- und Informationsseiten? - dummies

Was sind Tür- und Informationsseiten? - dummies

Eine Doorway-Seite wird nur als Zugang von einer Suchmaschine zu Ihrer Website erstellt. Doorway-Seiten werden manchmal als Gateway-Seiten und Geisterseiten bezeichnet. Die Idee besteht darin, hoch optimierte Seiten zu erstellen, die von Suchmaschinen aufgenommen und indiziert werden und die mit etwas Glück gut ranken und somit den Traffic auf eine ...

Was ist eine Weiterleitung bei der Suchmaschinenoptimierung? - Dummies

Was ist eine Weiterleitung bei der Suchmaschinenoptimierung? - Dummies

Eine Weiterleitung ist das automatische Laden einer Seite ohne Benutzereingriff. Sie klicken auf einen Link, um eine Webseite in Ihren Browser zu laden, und innerhalb von Sekunden verschwindet die geladene Seite, und eine neue wird angezeigt. Designer erstellen häufig Seiten für Suchmaschinen - optimierte, schlüsselwortreiche Seiten -, die Besucher auf die ...

Die Wahl des Herausgebers

Behandeln Probleme mit dem Kundenservice über Social Media - Dummies

Behandeln Probleme mit dem Kundenservice über Social Media - Dummies

, Wenn Kunden wissen, dass sie direkt mit ein Geschäft in den sozialen Medien, können sie aus einer beliebigen Anzahl von Gründen mit ihnen in Verbindung treten. Aber sobald sie merken, dass ein Problem mit dem Kundenservice oder einer Produktfrage über einen einzigen Tweet oder Beitrag angesprochen werden kann, ist es wahrscheinlicher, dass sie mit dem Unternehmen Geschäfte machen.

Acht Möglichkeiten, Social Media Feedback zu erhalten - Dummies

Acht Möglichkeiten, Social Media Feedback zu erhalten - Dummies

Die heutige Technologie verändert die Art und Weise, wie wir Geschäfte machen blitzschnell. Auch der Social-Media-Handel bewegt sich blitzschnell, aber durch die Beobachtung von Erwähnungen und Fragen an die Community können Sie einen Eindruck davon bekommen, wie Ihr Markt über bevorstehende Veränderungen denkt. Auch andere Posts können Ihnen helfen, kritisches Feedback aus der Öffentlichkeit zusammenzustellen ...

Manage Social Media Commerce mit HootSuite - dummies

Manage Social Media Commerce mit HootSuite - dummies

HootSuite ist ein Social Media Management System zur Umsetzung von Outreach und Überwachung in sozialen Netzwerken über ein einziges webbasiertes Dashboard. Für Unternehmen wird HootSuite am häufigsten von Social-Media-Teams mit mehreren Agenten verwendet, aber auch viele Einzelanwender mögen es. Wenn Sie auf der Suche nach einer robusten Plattform sind, die alles an einem Ort hält, ...

Die Wahl des Herausgebers

Die 5 Kornsterne der Mittelmeer - Dummies

Die 5 Kornsterne der Mittelmeer - Dummies

Die Mittelmeerdiät ist in der Praxis des Habens begründet ein Vollkorn zu jeder Mahlzeit. Und nein, das bedeutet nicht, eine ganze Platte Vollkornspaghetti mit Fleischsauce zum Abendessen zu essen. Stattdessen machen die Menschen im Mittelmeerraum ihr Getreide zur Beilage oder schaffen durch die Zugabe von magerem Eiweiß mehr Gleichgewicht ...

Strebe nach Gesundheit mit 7 bis 10 Portionen Obst und Gemüse - Schnuller

Strebe nach Gesundheit mit 7 bis 10 Portionen Obst und Gemüse - Schnuller

Der Verzehr von sieben bis zehn Portionen Obst und Gemüse pro Tag, wie sie für die mediterrane Ernährung empfohlen werden, mag sehr viel erscheinen, aber es muss keine so große Herausforderung sein. Wenn Sie nicht die Früchte und das Gemüse lieben, die spezifisch mit der Mittelmeerdiät verbunden sind, ist das okay! Essen Sie jede Art von Obst oder Gemüse, die Sie ...

Die gesundheitlichen Vorteile von mediterranen Kräutern und Gewürzen - Dummies

Die gesundheitlichen Vorteile von mediterranen Kräutern und Gewürzen - Dummies

Sie haben vielleicht gedacht, dass der Oregano und Basilikum in Ihrer Spaghetti-Sauce lieferte nur einen deutlichen italienischen oder mediterranen Geschmack, aber diese kleinen Kräuter sind Pflanzen, was bedeutet, dass sie alle Arten von gesundheitlichen Vorteilen haben, die einen großen Einfluss auf Ihre allgemeine Gesundheit haben können. Einfache Gewürze wie Ingwer und Oregano enthalten Phytochemikalien, ...