Zuhause Persönliche Finanzen Vermeidung von Sample-Bias und Leckagefallen im maschinellen Lernen - Dummies

Vermeidung von Sample-Bias und Leckagefallen im maschinellen Lernen - Dummies

Video: What is Financial Fair Play & Player Amortisation? 2025

Video: What is Financial Fair Play & Player Amortisation? 2025
Anonim

Der Validierungsansatz für maschinelles Lernen ist eine Untersuchung eines möglichen Abhilfemaßnahmeinnenfalls. Ein In-Sampling-Bias kann Ihren Daten zustoßen, bevor maschinelles Lernen in die Tat umgesetzt wird, und verursacht eine hohe Varianz der folgenden Schätzungen. Darüber hinaus sollten Sie auf Leckagefallen achten, die auftreten können, wenn einige Informationen aus der außerhalb der Stichprobe befindlichen Daten in die Daten der Stichprobe übergehen. Dieses Problem kann auftreten, wenn Sie die Daten vorbereiten oder nachdem Ihr maschinelles Lernmodell fertig ist und funktioniert.

Das Mittel, das Ensemble von Prädiktoren genannt wird, funktioniert perfekt, wenn Ihre Trainingsstichprobe nicht vollständig verzerrt ist und ihre Verteilung sich von der außerhalb der Stichprobe liegenden unterscheidet, aber nicht auf irreparable Weise, z. wie wenn alle Klassen vorhanden sind, aber nicht im richtigen Verhältnis (als Beispiel). In solchen Fällen sind Ihre Ergebnisse von einer gewissen Varianz der Schätzungen betroffen, die Sie möglicherweise auf eine von mehreren Arten stabilisieren können: durch Resampling, wie beim Bootstrapping; durch Unterabtasten (Entnehmen einer Probe der Probe); oder indem kleinere Proben verwendet werden (was die Verzerrung erhöht).

Um zu verstehen, wie das Ensemble so effektiv funktioniert, visualisieren Sie das Bild eines Stierauges. Wenn Ihre Stichprobe die Vorhersagen beeinflusst, werden einige Vorhersagen genau sein und andere werden zufällig falsch sein. Wenn Sie Ihre Stichprobe ändern, werden die richtigen Vorhersagen weiterhin korrekt sein, aber die falschen Vorhersagen beginnen mit Variationen zwischen verschiedenen Werten. Einige Werte werden die genaue Vorhersage sein, nach der Sie suchen; andere oszillieren einfach um den richtigen.

Wenn Sie die Ergebnisse vergleichen, können Sie erraten, dass das, was wiederkehrt, die richtige Antwort ist. Sie können auch einen Durchschnitt der Antworten und erraten, dass die richtige Antwort in der Mitte der Werte sein sollte. Mit dem Bulls-Eye-Spiel können Sie überlagernde Fotos verschiedener Spiele visualisieren: Wenn das Problem Varianz ist, werden Sie letztendlich vermuten, dass sich das Ziel in der am häufigsten getroffenen Region oder zumindest in der Mitte aller Schüsse befindet.

In den meisten Fällen erweist sich ein solcher Ansatz als richtig und verbessert Ihre Prognosen für maschinelles Lernen erheblich. Wenn es sich bei Ihrem Problem um Bias und nicht um Varianz handelt, verursacht die Verwendung von Ensembling keine Schäden, wenn Sie nicht zu wenige Samples abtasten. Eine gute Faustregel für das Subsampling besteht darin, eine Stichprobe von 70 bis 90 Prozent im Vergleich zu den ursprünglichen In-Sample-Daten zu nehmen. Wenn Sie Zusammenstellungsarbeit leisten möchten, sollten Sie Folgendes tun:

  • Iterieren Sie eine große Anzahl von Malen durch Ihre Daten und Modelle (von mindestens drei Iterationen bis idealerweise Hunderte von Malen).
  • Jedes Mal, wenn Sie iterieren, müssen Sie Ihre In-Sample-Daten abfragen (oder auch Bootstrap).
  • Verwenden Sie das maschinelle Lernen für das Modell in den neu abgetasteten Daten und prognostizieren Sie die Ergebnisse außerhalb der Stichprobe. Speichern Sie diese Ergebnisse zur späteren Verwendung.
  • Am Ende der Iterationen nehmen Sie für jeden Out-of-Sample-Fall, den Sie vorhersagen möchten, all seine Vorhersagen und mitteln diese, wenn Sie eine Regression durchführen. Nehmen Sie die häufigste Klasse, wenn Sie eine Klassifizierung durchführen.

Leckagefallen können Sie überraschen, da sie sich als unbekannte und unentdeckte Quelle von Problemen mit Ihren maschinellen Lernprozessen erweisen können. Das Problem ist, zu snooping, oder sonst wie die Out-of-Sample-Daten zu sehr zu beobachten und sich zu oft darauf einzustellen. Kurz gesagt, Snooping ist eine Art Überanpassung - und zwar nicht nur an den Trainingsdaten, sondern auch an den Testdaten, wodurch das Überanpassungsproblem selbst schwieriger zu erkennen ist, bis Sie neue Daten erhalten.

Gewöhnlich erkennen Sie, dass das Problem Snooping ist, wenn Sie den Algorithmus für maschinelles Lernen bereits auf Ihr Unternehmen oder einen Service für die Öffentlichkeit angewendet haben, wodurch das Problem zu einem Thema wird, das jeder sehen kann.

Sie können das Snooping auf zwei Arten vermeiden. Erstens, wenn Sie mit den Daten arbeiten, achten Sie darauf, die Trainings-, Validierungs- und Testdaten sauber zu trennen. Nehmen Sie bei der Verarbeitung niemals irgendwelche Informationen aus der Validierung oder Prüfung mit, auch nicht die einfachsten und unschuldigsten Beispiele. Noch schlimmer ist es, eine komplexe Transformation unter Verwendung aller Daten anzuwenden.

Im Finanzwesen ist es beispielsweise bekannt, dass die Berechnung des Mittelwerts und der Standardabweichung (die Ihnen viel über Marktbedingungen und Risiken aussagen kann) aus allen Trainings- und Testdaten wertvolle Informationen über Ihre Modelle preisgibt. Wenn es zu Leckverlusten kommt, führen maschinelle Lernalgorithmen eher Vorhersagen auf dem Testset durch als die Daten außerhalb der Stichprobe von den Märkten, was bedeutet, dass sie überhaupt nicht funktionierten, was zu einem Geldverlust führte.

Überprüfen Sie die Leistung Ihrer Out-of-Sample-Beispiele. In der Tat können Sie einige Informationen aus Ihrem Snooping auf die Testergebnisse zurückbringen, um Ihnen zu helfen, festzustellen, dass bestimmte Parameter besser sind als andere, oder Sie dazu führen, einen maschinellen Lernalgorithmus anstelle eines anderen auszuwählen. Wenden Sie für jedes Modell oder jeden Parameter Ihre Auswahl basierend auf Kreuzvalidierungsergebnissen oder aus dem Validierungsmuster an. Fallen Sie niemals aus Ihren Out-of-Sample-Daten aus oder Sie werden es später bereuen.

Vermeidung von Sample-Bias und Leckagefallen im maschinellen Lernen - Dummies

Die Wahl des Herausgebers

Photoshop 7 Navigationswerkzeuge - dummies

Photoshop 7 Navigationswerkzeuge - dummies

Photoshop 7 bietet alle Möglichkeiten, durch die Funktionen zu navigieren, egal ob Sie eine Mac oder ein Windows-System. In der folgenden Tabelle finden Sie Informationen zum Scrollen, Zoomen und Durchlaufen von Photoshop 7: Action Windows Mac Scrollen Sie mit der Leertaste + ziehen Sie die Leertaste + Strg + Leertaste + klicken Sie auf Apple Command + Leertaste + klicken Sie auf Vergrößern und ändern ...

Photoshop 7 Mal- und bearbeitungswerkzeuge - dummies

Photoshop 7 Mal- und bearbeitungswerkzeuge - dummies

In Photoshop 7 sind die Tastenkombinationen für Mal- und Bearbeitungswerkzeuge meist das Gleiche, ob Sie ein Windows-basiertes System oder einen Mac verwenden. Der einzige Unterschied besteht im letzten Eintrag in der folgenden Tabelle, in der die Verknüpfungen angezeigt werden: Erhöhen der Pinselgröße] Verringern der Pinselgröße [Ändern der Deckkraft oder des Werkzeugflusses 1, ...

Photoshop 7 Paletten-Werkzeuge - Dummies

Photoshop 7 Paletten-Werkzeuge - Dummies

Die Paletten von Photoshop 7 geben Ihnen Zugriff auf Gruppen verwandter Werkzeuge. Wenn Sie sich also auf Farbe konzentrieren, können Sie die Farbpalette aufziehen und Ihre Photoshop-Bilder mit einem Regenbogen von Schattierungen beleben. Die folgende Tabelle zeigt den Zugriff auf die verschiedenen Photoshop 7-Paletten in Windows- und Mac-Systemen: Palette / Aktion ...

Die Wahl des Herausgebers

Fantasy Fußball für Dummies Cheat Sheet - Dummies

Fantasy Fußball für Dummies Cheat Sheet - Dummies

Fantasy Fußball ist ein Spaß, wettbewerbsfähig und süchtig machendes Hobby. Bringen Sie Ihre Fantasy-Saison in Schwung, indem Sie Spieler entwerfen, um ein solides Team aufzubauen und Coaching-Tipps verwenden, um Ihr Team stark zu machen. Wenn Sie eine Position verbessern müssen, probieren Sie einige Strategien für den Handel mit Spielern und den Erwerb freier Agenten aus. Halten Sie einen Führer handlich von ...

Wie Fantasy-Fußball-Playoffs funktionieren - Dummies

Wie Fantasy-Fußball-Playoffs funktionieren - Dummies

Wenn du das Ende deiner Fantasy-Football-Saison erreichst, wenn sie vorbei ist Nun, Sie sind vielleicht im Streit, um die Playoffs zu machen. Wenn das der Fall ist, herzlichen Glückwunsch! Mit diesen Rechten geht es um dieses Spiel, und Sie sind dem ultimativen Preis einen Schritt näher. Wenn nicht, fühle dich nicht schlecht. ...

Bereiten Sie Ihre Fantasy Football Roster für die Draft - Dummies

Bereiten Sie Ihre Fantasy Football Roster für die Draft - Dummies

Vor, wenn Sie Ihre Fantasy Football League erforschen und herausfinden Wie viele Dienstplan-Spots Sie haben, können Sie Ihre Aufmerksamkeit darauf lenken, Ihren Entwurf basierend auf diesen Anforderungen vorzubereiten. Sie können Ihren eigenen Dienstplan-Spickzettel aus CheatSheet War Room ausdrucken. Neben dem Listenblatt finden Sie weitere kostenlose druckbare Fantasy-Fußball ...

Die Wahl des Herausgebers

Erstellen eines neuen Dokuments aus CSS-Starterseiten in Dreamweaver CS6 - Dummies

Erstellen eines neuen Dokuments aus CSS-Starterseiten in Dreamweaver CS6 - Dummies

Adobe Dreamweaver CS6 bietet Ihnen eine Bibliothek von Beispielseiten mit CSS-basierten Layouts als Alternative zum Neuanfang. Diese CSS-Beispielseiten enthalten nützliche und allgemeine Layoutideen, und da sie mit CSS-Positionierung erstellt werden, sind sie sehr flexibel. Sie können sie direkt im Bedienfeld "CSS-Stile" oder im Eigenschafteninspektor ändern. ...