Zuhause Persönliche Finanzen Vermeidung von Sample-Bias und Leckagefallen im maschinellen Lernen - Dummies

Vermeidung von Sample-Bias und Leckagefallen im maschinellen Lernen - Dummies

Video: What is Financial Fair Play & Player Amortisation? 2024

Video: What is Financial Fair Play & Player Amortisation? 2024
Anonim

Der Validierungsansatz für maschinelles Lernen ist eine Untersuchung eines möglichen Abhilfemaßnahmeinnenfalls. Ein In-Sampling-Bias kann Ihren Daten zustoßen, bevor maschinelles Lernen in die Tat umgesetzt wird, und verursacht eine hohe Varianz der folgenden Schätzungen. Darüber hinaus sollten Sie auf Leckagefallen achten, die auftreten können, wenn einige Informationen aus der außerhalb der Stichprobe befindlichen Daten in die Daten der Stichprobe übergehen. Dieses Problem kann auftreten, wenn Sie die Daten vorbereiten oder nachdem Ihr maschinelles Lernmodell fertig ist und funktioniert.

Das Mittel, das Ensemble von Prädiktoren genannt wird, funktioniert perfekt, wenn Ihre Trainingsstichprobe nicht vollständig verzerrt ist und ihre Verteilung sich von der außerhalb der Stichprobe liegenden unterscheidet, aber nicht auf irreparable Weise, z. wie wenn alle Klassen vorhanden sind, aber nicht im richtigen Verhältnis (als Beispiel). In solchen Fällen sind Ihre Ergebnisse von einer gewissen Varianz der Schätzungen betroffen, die Sie möglicherweise auf eine von mehreren Arten stabilisieren können: durch Resampling, wie beim Bootstrapping; durch Unterabtasten (Entnehmen einer Probe der Probe); oder indem kleinere Proben verwendet werden (was die Verzerrung erhöht).

Um zu verstehen, wie das Ensemble so effektiv funktioniert, visualisieren Sie das Bild eines Stierauges. Wenn Ihre Stichprobe die Vorhersagen beeinflusst, werden einige Vorhersagen genau sein und andere werden zufällig falsch sein. Wenn Sie Ihre Stichprobe ändern, werden die richtigen Vorhersagen weiterhin korrekt sein, aber die falschen Vorhersagen beginnen mit Variationen zwischen verschiedenen Werten. Einige Werte werden die genaue Vorhersage sein, nach der Sie suchen; andere oszillieren einfach um den richtigen.

Wenn Sie die Ergebnisse vergleichen, können Sie erraten, dass das, was wiederkehrt, die richtige Antwort ist. Sie können auch einen Durchschnitt der Antworten und erraten, dass die richtige Antwort in der Mitte der Werte sein sollte. Mit dem Bulls-Eye-Spiel können Sie überlagernde Fotos verschiedener Spiele visualisieren: Wenn das Problem Varianz ist, werden Sie letztendlich vermuten, dass sich das Ziel in der am häufigsten getroffenen Region oder zumindest in der Mitte aller Schüsse befindet.

In den meisten Fällen erweist sich ein solcher Ansatz als richtig und verbessert Ihre Prognosen für maschinelles Lernen erheblich. Wenn es sich bei Ihrem Problem um Bias und nicht um Varianz handelt, verursacht die Verwendung von Ensembling keine Schäden, wenn Sie nicht zu wenige Samples abtasten. Eine gute Faustregel für das Subsampling besteht darin, eine Stichprobe von 70 bis 90 Prozent im Vergleich zu den ursprünglichen In-Sample-Daten zu nehmen. Wenn Sie Zusammenstellungsarbeit leisten möchten, sollten Sie Folgendes tun:

  • Iterieren Sie eine große Anzahl von Malen durch Ihre Daten und Modelle (von mindestens drei Iterationen bis idealerweise Hunderte von Malen).
  • Jedes Mal, wenn Sie iterieren, müssen Sie Ihre In-Sample-Daten abfragen (oder auch Bootstrap).
  • Verwenden Sie das maschinelle Lernen für das Modell in den neu abgetasteten Daten und prognostizieren Sie die Ergebnisse außerhalb der Stichprobe. Speichern Sie diese Ergebnisse zur späteren Verwendung.
  • Am Ende der Iterationen nehmen Sie für jeden Out-of-Sample-Fall, den Sie vorhersagen möchten, all seine Vorhersagen und mitteln diese, wenn Sie eine Regression durchführen. Nehmen Sie die häufigste Klasse, wenn Sie eine Klassifizierung durchführen.

Leckagefallen können Sie überraschen, da sie sich als unbekannte und unentdeckte Quelle von Problemen mit Ihren maschinellen Lernprozessen erweisen können. Das Problem ist, zu snooping, oder sonst wie die Out-of-Sample-Daten zu sehr zu beobachten und sich zu oft darauf einzustellen. Kurz gesagt, Snooping ist eine Art Überanpassung - und zwar nicht nur an den Trainingsdaten, sondern auch an den Testdaten, wodurch das Überanpassungsproblem selbst schwieriger zu erkennen ist, bis Sie neue Daten erhalten.

Gewöhnlich erkennen Sie, dass das Problem Snooping ist, wenn Sie den Algorithmus für maschinelles Lernen bereits auf Ihr Unternehmen oder einen Service für die Öffentlichkeit angewendet haben, wodurch das Problem zu einem Thema wird, das jeder sehen kann.

Sie können das Snooping auf zwei Arten vermeiden. Erstens, wenn Sie mit den Daten arbeiten, achten Sie darauf, die Trainings-, Validierungs- und Testdaten sauber zu trennen. Nehmen Sie bei der Verarbeitung niemals irgendwelche Informationen aus der Validierung oder Prüfung mit, auch nicht die einfachsten und unschuldigsten Beispiele. Noch schlimmer ist es, eine komplexe Transformation unter Verwendung aller Daten anzuwenden.

Im Finanzwesen ist es beispielsweise bekannt, dass die Berechnung des Mittelwerts und der Standardabweichung (die Ihnen viel über Marktbedingungen und Risiken aussagen kann) aus allen Trainings- und Testdaten wertvolle Informationen über Ihre Modelle preisgibt. Wenn es zu Leckverlusten kommt, führen maschinelle Lernalgorithmen eher Vorhersagen auf dem Testset durch als die Daten außerhalb der Stichprobe von den Märkten, was bedeutet, dass sie überhaupt nicht funktionierten, was zu einem Geldverlust führte.

Überprüfen Sie die Leistung Ihrer Out-of-Sample-Beispiele. In der Tat können Sie einige Informationen aus Ihrem Snooping auf die Testergebnisse zurückbringen, um Ihnen zu helfen, festzustellen, dass bestimmte Parameter besser sind als andere, oder Sie dazu führen, einen maschinellen Lernalgorithmus anstelle eines anderen auszuwählen. Wenden Sie für jedes Modell oder jeden Parameter Ihre Auswahl basierend auf Kreuzvalidierungsergebnissen oder aus dem Validierungsmuster an. Fallen Sie niemals aus Ihren Out-of-Sample-Daten aus oder Sie werden es später bereuen.

Vermeidung von Sample-Bias und Leckagefallen im maschinellen Lernen - Dummies

Die Wahl des Herausgebers

Netzwerkgrundlagen: IPv6-Adresse Vereinfachte Notation - Dummies

Netzwerkgrundlagen: IPv6-Adresse Vereinfachte Notation - Dummies

Bei der Arbeit mit IPv6-Adressen kann es viel Zeit in Anspruch nehmen. schreibe deine Adressen - immerhin sind sie 128 Bit lang. Um das Leben einfacher zu machen, gibt es einige Regeln, die Sie verwenden können, um diese Schreibweise zu verdichten: Führende Nullen in der Adresse sind optional. Für einen Adressblock wäre also 0A45 gleich A45, ...

Netzwerkgrundlagen: IP-Netzwerkklassen - Dummies

Netzwerkgrundlagen: IP-Netzwerkklassen - Dummies

Netzwerkadressierungsarchitektur unterteilt den Adressraum für Internet Protocol Version 4 (IPv4 ) in fünf Adressklassen. Jede Klasse, die in den ersten vier Bits der Adresse codiert ist, definiert entweder eine andere Netzwerkgröße, d.h. e. Anzahl der Hosts für Unicast-Adressen (Klassen A, B, C) oder Multicast-Netzwerk (Klasse D). Die fünfte Klasse (E) address ...

Netzwerkgrundlagen: Netzwerkport Übersicht - Dummys

Netzwerkgrundlagen: Netzwerkport Übersicht - Dummys

In TCP / IP- und UDP-Netzwerken ist ein Port ein Endpunkt eine logische Verbindung. Die Portnummer gibt an, um welchen Port es sich handelt. Port 80 wird beispielsweise für HTTP-Datenverkehr verwendet. Wenn Sie einen Befehl wie netstat -n unter Microsoft Windows oder Linux verwenden, sehen Sie eine Auflistung der lokalen Adressen ...

Die Wahl des Herausgebers

Excel-Dashboards: Wie Sie Ihr erstes Makro aufzeichnen - Dummies

Excel-Dashboards: Wie Sie Ihr erstes Makro aufzeichnen - Dummies

Wenn Sie ein Anfänger auf dem Dashboard sind Automatisierung in Excel ist es unwahrscheinlich, dass Sie den VBA-Code (Visual Basic für Applikationen) von Hand schreiben können, um Makros zu erstellen. Ohne vollständige Kenntnis des Objektmodells und der Syntax von Excel wäre das Schreiben des benötigten Codes für die meisten Anfänger unmöglich. Hier können Sie ein Makro aufzeichnen ...

Excel-Formelberechnungsmodi - Dummys

Excel-Formelberechnungsmodi - Dummys

Standardmäßig ist Excel so eingestellt, dass es automatisch neu berechnet wird. Wenn Sie eine der Zellen ändern, auf die in einer bestimmten Formel verwiesen wird, berechnet Excel diese Formel automatisch neu, sodass ein korrektes Ergebnis basierend auf den Änderungen in den Zellbezügen zurückgegeben wird. Wenn die Formel, die neu berechnet wird, auch als Zellenreferenz in anderen verwendet wird ...

Excel Formelfehler - Dummies

Excel Formelfehler - Dummies

Es ist nicht immer glatt, wenn Sie mit Excel-Formeln arbeiten. Manchmal gibt eine Formel einen Fehlerwert anstelle des erwarteten Werts zurück. Excel hilft Ihnen, das Problem zu identifizieren, indem Sie einen von sieben Fehlerwerten zurückgeben: # DIV / 0! , # N / A, #NAME? , #NULL! , #NUM! , #REF! und #WERT! , erklärt in der folgenden Liste: # DIV / 0! : ...

Die Wahl des Herausgebers

Teilen, Weiterverbreiten und Kommentieren von Google+ Posts - Dummies

Teilen, Weiterverbreiten und Kommentieren von Google+ Posts - Dummies

, Wenn Sie mit der Verwendung und Veröffentlichung beginnen Bei Google+ möchten Sie gelegentlich Links und Bilder teilen, die Beiträge anderer freigeben, ihre Beiträge kommentieren und andere in Ihren eigenen Google+ Beiträgen erwähnen. Vielleicht fragen Sie sich auch, wie Sie andere dazu bringen, Ihre eigenen Beiträge öfter zu kommentieren. Teilen von Links und Bildern in Google+ So geben Sie ein ...

Teilen Ihrer Google+ Posts mit bestimmten Personen - Dummies

Teilen Ihrer Google+ Posts mit bestimmten Personen - Dummies

Beiträge auf Google+ sind ganz einfach und können posten Text, Links, Fotos, Videos und sogar Ihren aktuellen Standort. Der schwierigste Teil des Beitrags auf Google+ besteht darin, auszuwählen, wen Sie Ihren Beitrag sehen möchten. Google+ verwendet Ihre Kreise, um festzulegen, wer Ihre Beiträge sehen kann. Kreise sind etwas einfacher als Listen, weil ...

Taggen von Personen in Google+ Fotos - Dummies

Taggen von Personen in Google+ Fotos - Dummies

Sie können Personen in Ihren Kreisen auf jedem Foto auf Google+ markieren. Wenn Sie eine Person in einem Foto taggen, wird diese Person über ihre Google+ Benachrichtigungen benachrichtigt. Sie können dann das Tag entfernen oder genehmigen, und das Foto wird mit dem Tag des Namens dieser Person darin angezeigt. Um jemanden zu markieren, ...