Zuhause Persönliche Finanzen Vermeidung von Sample-Bias und Leckagefallen im maschinellen Lernen - Dummies

Vermeidung von Sample-Bias und Leckagefallen im maschinellen Lernen - Dummies

Video: What is Financial Fair Play & Player Amortisation? 2025

Video: What is Financial Fair Play & Player Amortisation? 2025
Anonim

Der Validierungsansatz für maschinelles Lernen ist eine Untersuchung eines möglichen Abhilfemaßnahmeinnenfalls. Ein In-Sampling-Bias kann Ihren Daten zustoßen, bevor maschinelles Lernen in die Tat umgesetzt wird, und verursacht eine hohe Varianz der folgenden Schätzungen. Darüber hinaus sollten Sie auf Leckagefallen achten, die auftreten können, wenn einige Informationen aus der außerhalb der Stichprobe befindlichen Daten in die Daten der Stichprobe übergehen. Dieses Problem kann auftreten, wenn Sie die Daten vorbereiten oder nachdem Ihr maschinelles Lernmodell fertig ist und funktioniert.

Das Mittel, das Ensemble von Prädiktoren genannt wird, funktioniert perfekt, wenn Ihre Trainingsstichprobe nicht vollständig verzerrt ist und ihre Verteilung sich von der außerhalb der Stichprobe liegenden unterscheidet, aber nicht auf irreparable Weise, z. wie wenn alle Klassen vorhanden sind, aber nicht im richtigen Verhältnis (als Beispiel). In solchen Fällen sind Ihre Ergebnisse von einer gewissen Varianz der Schätzungen betroffen, die Sie möglicherweise auf eine von mehreren Arten stabilisieren können: durch Resampling, wie beim Bootstrapping; durch Unterabtasten (Entnehmen einer Probe der Probe); oder indem kleinere Proben verwendet werden (was die Verzerrung erhöht).

Um zu verstehen, wie das Ensemble so effektiv funktioniert, visualisieren Sie das Bild eines Stierauges. Wenn Ihre Stichprobe die Vorhersagen beeinflusst, werden einige Vorhersagen genau sein und andere werden zufällig falsch sein. Wenn Sie Ihre Stichprobe ändern, werden die richtigen Vorhersagen weiterhin korrekt sein, aber die falschen Vorhersagen beginnen mit Variationen zwischen verschiedenen Werten. Einige Werte werden die genaue Vorhersage sein, nach der Sie suchen; andere oszillieren einfach um den richtigen.

Wenn Sie die Ergebnisse vergleichen, können Sie erraten, dass das, was wiederkehrt, die richtige Antwort ist. Sie können auch einen Durchschnitt der Antworten und erraten, dass die richtige Antwort in der Mitte der Werte sein sollte. Mit dem Bulls-Eye-Spiel können Sie überlagernde Fotos verschiedener Spiele visualisieren: Wenn das Problem Varianz ist, werden Sie letztendlich vermuten, dass sich das Ziel in der am häufigsten getroffenen Region oder zumindest in der Mitte aller Schüsse befindet.

In den meisten Fällen erweist sich ein solcher Ansatz als richtig und verbessert Ihre Prognosen für maschinelles Lernen erheblich. Wenn es sich bei Ihrem Problem um Bias und nicht um Varianz handelt, verursacht die Verwendung von Ensembling keine Schäden, wenn Sie nicht zu wenige Samples abtasten. Eine gute Faustregel für das Subsampling besteht darin, eine Stichprobe von 70 bis 90 Prozent im Vergleich zu den ursprünglichen In-Sample-Daten zu nehmen. Wenn Sie Zusammenstellungsarbeit leisten möchten, sollten Sie Folgendes tun:

  • Iterieren Sie eine große Anzahl von Malen durch Ihre Daten und Modelle (von mindestens drei Iterationen bis idealerweise Hunderte von Malen).
  • Jedes Mal, wenn Sie iterieren, müssen Sie Ihre In-Sample-Daten abfragen (oder auch Bootstrap).
  • Verwenden Sie das maschinelle Lernen für das Modell in den neu abgetasteten Daten und prognostizieren Sie die Ergebnisse außerhalb der Stichprobe. Speichern Sie diese Ergebnisse zur späteren Verwendung.
  • Am Ende der Iterationen nehmen Sie für jeden Out-of-Sample-Fall, den Sie vorhersagen möchten, all seine Vorhersagen und mitteln diese, wenn Sie eine Regression durchführen. Nehmen Sie die häufigste Klasse, wenn Sie eine Klassifizierung durchführen.

Leckagefallen können Sie überraschen, da sie sich als unbekannte und unentdeckte Quelle von Problemen mit Ihren maschinellen Lernprozessen erweisen können. Das Problem ist, zu snooping, oder sonst wie die Out-of-Sample-Daten zu sehr zu beobachten und sich zu oft darauf einzustellen. Kurz gesagt, Snooping ist eine Art Überanpassung - und zwar nicht nur an den Trainingsdaten, sondern auch an den Testdaten, wodurch das Überanpassungsproblem selbst schwieriger zu erkennen ist, bis Sie neue Daten erhalten.

Gewöhnlich erkennen Sie, dass das Problem Snooping ist, wenn Sie den Algorithmus für maschinelles Lernen bereits auf Ihr Unternehmen oder einen Service für die Öffentlichkeit angewendet haben, wodurch das Problem zu einem Thema wird, das jeder sehen kann.

Sie können das Snooping auf zwei Arten vermeiden. Erstens, wenn Sie mit den Daten arbeiten, achten Sie darauf, die Trainings-, Validierungs- und Testdaten sauber zu trennen. Nehmen Sie bei der Verarbeitung niemals irgendwelche Informationen aus der Validierung oder Prüfung mit, auch nicht die einfachsten und unschuldigsten Beispiele. Noch schlimmer ist es, eine komplexe Transformation unter Verwendung aller Daten anzuwenden.

Im Finanzwesen ist es beispielsweise bekannt, dass die Berechnung des Mittelwerts und der Standardabweichung (die Ihnen viel über Marktbedingungen und Risiken aussagen kann) aus allen Trainings- und Testdaten wertvolle Informationen über Ihre Modelle preisgibt. Wenn es zu Leckverlusten kommt, führen maschinelle Lernalgorithmen eher Vorhersagen auf dem Testset durch als die Daten außerhalb der Stichprobe von den Märkten, was bedeutet, dass sie überhaupt nicht funktionierten, was zu einem Geldverlust führte.

Überprüfen Sie die Leistung Ihrer Out-of-Sample-Beispiele. In der Tat können Sie einige Informationen aus Ihrem Snooping auf die Testergebnisse zurückbringen, um Ihnen zu helfen, festzustellen, dass bestimmte Parameter besser sind als andere, oder Sie dazu führen, einen maschinellen Lernalgorithmus anstelle eines anderen auszuwählen. Wenden Sie für jedes Modell oder jeden Parameter Ihre Auswahl basierend auf Kreuzvalidierungsergebnissen oder aus dem Validierungsmuster an. Fallen Sie niemals aus Ihren Out-of-Sample-Daten aus oder Sie werden es später bereuen.

Vermeidung von Sample-Bias und Leckagefallen im maschinellen Lernen - Dummies

Die Wahl des Herausgebers

Wie man Dateien in C ++ kopiert - Dummies

Wie man Dateien in C ++ kopiert - Dummies

Ah, eine Datei kopieren - etwas so einfaches, es passiert alles Zeit. Kopiere diese Datei dorthin; Kopieren Sie diese Datei hier. Aber was genau passiert, wenn Sie eine Datei kopieren? Sie erstellen tatsächlich eine neue Datei und füllen diese mit dem gleichen Inhalt wie die Originaldatei. Und wie machst du das? Nun, ...

Anleitung zum Erstellen eines Verzeichnisses in C ++ - Dummies

Anleitung zum Erstellen eines Verzeichnisses in C ++ - Dummies

Wenn Sie ein Verzeichnis erstellen möchten, können Sie das MKdir Funktion. Wenn die Funktion das Verzeichnis für Sie erstellen kann, gibt sie eine 0 zurück. Andernfalls wird ein Wert ungleich Null zurückgegeben. (Wenn Sie es ausführen, erhalten Sie eine -1, aber Ihre beste Wette - immer - ist es, gegen 0 zu testen.) Hier ist einige ...

Wie man eine einfache mathematische Vorlage in C ++ - Dummies

Wie man eine einfache mathematische Vorlage in C ++ - Dummies

Mit einer mathematischen Vorlage erstellt, die man normalerweise benötigt Zugriff auf eine Vielzahl von Berechnungen, aber nur jeweils eine oder zwei dieser Berechnungen. Zum Beispiel, wenn jemand Ihre Hypothek berechnet, muss er die Amortisationsrechnung nicht kennen. Die Person kann jedoch die Amortisationsberechnung benötigen, wenn Sie mit ...

Die Wahl des Herausgebers

ASVAB: Lesen für die Studie - Dummies

ASVAB: Lesen für die Studie - Dummies

Lesen für die Zwecke des Studiums der ASVAB ist eine andere Art des Lesens. Leseverständnis erfordert nur, dass Sie Informationen lange genug im Kurzzeitgedächtnis speichern, um einige Sekunden später eine Frage zu beantworten. Zum Lesen für die Zwecke des Studiums müssen Sie wichtige Informationen in Ihr Langzeitgedächtnis einpflegen - ...

ASVAB Mathematik Wissenspraxis: Ungleichungen - Dummies

ASVAB Mathematik Wissenspraxis: Ungleichungen - Dummies

Als wäre Algebra nicht anspruchsvoll genug, einige Fragen zur Der Subtest Mathematik auf dem ASVAB wird auch eine Ungleichheit einwerfen - nur um sicherzustellen, dass Sie aufmerksam sind. Wie erkennst du eine Ungleichheit? Halten Sie Ausschau nach Fragen mit mehr als oder weniger als Symbolen oder nach Graphen, die eine Zahlenlinie mit einem ...

ASVAB Mathematische Wissenspraxis: Fraktionen - Dummies

ASVAB Mathematische Wissenspraxis: Fraktionen - Dummies

Der Subtest Mathematikwissen auf dem ASVAB wird Fragen beinhalten, die Sie fragen mit Teilen eines Ganzen oder Fraktionen arbeiten. Diese Fragen können das Multiplizieren, Dividieren, Addieren, Subtrahieren und Konvertieren von Brüchen beinhalten, ähnlich den folgenden Übungsfragen. Übungsfragen Welche Fraktionen sind nicht gleichwertig? Gegeben einfach den Ausdruck. Antworten und Erklärungen Das richtige ...

Die Wahl des Herausgebers

Hinzufügen von Flash-Audio- und Videodateien in Dreamweaver - Dummies

Hinzufügen von Flash-Audio- und Videodateien in Dreamweaver - Dummies

Adobe besitzt sowohl Flash als auch Dreamweaver Daher finden Sie großartige Unterstützung für Flash-Dateien in Dreamweaver. Das Dialogfeld "FLV einfügen" erleichtert das Festlegen von Parametern für Flash. Dreamweaver erkennt sogar automatisch die Größe von Flash-Videodateien. Sie können Flash auch zum Erstellen und Einfügen von Audiodateien verwenden, wobei nur der Player angezeigt wird.

Einstellen von Bildhelligkeit und -kontrast in Dreamweaver - Dummies

Einstellen von Bildhelligkeit und -kontrast in Dreamweaver - Dummies

Dreamweaver bietet Werkzeuge zum Erstellen von Bildern Einstellungen, einschließlich der Helligkeit und des Kontrastes. Durch die Anpassung der Bildhelligkeit können Sie die Gesamtlichtmenge in einem Bild ändern. Kontrast steuert den Unterschied zwischen hellen und dunklen Bereichen eines Bildes. Wenn Sie die Dreamweaver-Bearbeitungswerkzeuge verwenden, wird das Bild dauerhaft geändert, wenn die Seite ...

Hinzufügen von Bildern zu Ihrer Website in Dreamweaver - Dummies

Hinzufügen von Bildern zu Ihrer Website in Dreamweaver - Dummies

Wenn Sie Ihrer Website ein Bild hinzufügen, erscheint anfangs fast magisch, weil der Prozess mit Dreamweaver so einfach ist. Die Herausforderung bei Webgrafiken besteht darin, sie nicht zu Ihren Seiten hinzuzufügen, sondern gut aussehende Bilder zu erstellen, die schnell im Browser Ihres Viewers geladen werden. Sie benötigen ein anderes Programm wie Photoshop, Photoshop Elements oder Fireworks, um ...