Video: My Friend Irma: The Red Hand / Billy Boy, the Boxer / The Professor's Concerto 2024
Wenn Sie sich auf Technologie oder Instrumentierung verlassen, um eine Vorhersageanalyse-Aufgabe auszuführen, kann eine Störung hier oder da dazu führen, dass diese Instrumente extreme oder ungewöhnliche Werte registrieren. Wenn Sensoren Beobachtungswerte registrieren, die grundlegende Qualitätskontrollstandards nicht erfüllen, können sie echte Störungen erzeugen, die sich in Daten widerspiegeln.
Jemand, der eine Dateneingabe durchführt, kann zum Beispiel leicht eine zusätzliche 0 am Ende eines Wertes hinzufügen, indem er den Eintrag aus dem Bereich herausnimmt und einen Ausreißer erzeugt.
Wenn Sie sich Beobachtungsdaten ansehen, die von einem in Baltimore Harbour installierten Wassersensor gesammelt wurden - und der eine Wassertiefe von 20 Fuß über dem Meeresspiegel anzeigt - haben Sie einen Ausreißer. Der Sensor ist offensichtlich falsch, wenn Baltimore nicht vollständig von Wasser bedeckt ist.
Daten können aufgrund von externen Ereignissen oder einem Fehler einer Person oder eines Instruments Ausreißer sein.
Wenn ein echtes Ereignis wie ein Flash-Crash auf einen Fehler im System zurückzuführen ist, sind die Konsequenzen immer noch real - aber wenn Sie die Ursache des Problems kennen, können Sie zu dem Schluss kommen, dass ein Fehler in den Daten und nicht in Ihrem Modell vorliegt., war schuld, wenn Ihr Modell das Ereignis nicht vorhersagte.
Wenn Sie die Quelle des Ausreißers kennen, wird Ihre Entscheidung darüber, wie Sie damit umgehen sollen, bestimmt. Ausreißer, die das Ergebnis von Fehlern bei der Dateneingabe sind, können leicht korrigiert werden, nachdem die Datenquelle konsultiert wurde. Ausreißer, die eine Änderungsrealität widerspiegeln, können Sie dazu auffordern, Ihr Modell zu ändern.
Es gibt keine one-size-fits-all-Antwort, wenn Sie entscheiden, ob Sie extreme Daten einschließen oder ignorieren möchten, bei denen es sich nicht um einen Fehler oder eine Störung handelt. Ihre Antwort hängt von der Art der Analyse ab, die Sie durchführen - und vom Typ des Modells, das Sie erstellen. In einigen Fällen ist der Umgang mit diesen Ausreißern einfach:
-
Wenn Sie Ihren Ausreißer bei der Abfrage der Datenquelle auf einen Dateneingabefehler zurückverfolgen, können Sie die Daten leicht korrigieren und (wahrscheinlich) das Modell beibehalten.
-
Wenn dieser Wassersensor in Baltimore Harbour Wasser bis zu einer Tiefe von 20 Fuß über dem Meeresspiegel anzeigt und Sie in Baltimore sind, schauen Sie aus dem Fenster:
-
Wenn Baltimore nicht vollständig von Wasser bedeckt ist, ist offensichtlich falsch.
-
Wenn du einen Fisch siehst, der auf dich schaut, hat sich die Realität verändert; Sie müssen möglicherweise Ihr Modell überarbeiten.
-
-
Der Flash-Crash könnte ein einmaliges Ereignis gewesen sein (zumindest kurzfristig), aber seine Auswirkungen waren real - und wenn Sie den Markt längerfristig studiert haben, wissen Sie, dass etwas ähnliches noch einmal passieren kann…Wenn Ihr Unternehmen im Finanzbereich tätig ist und Sie sich ständig mit dem Aktienmarkt beschäftigen, möchten Sie, dass Ihr Modell solche Abweichungen berücksichtigt.
Wenn das Ergebnis eines Ereignisses, das normalerweise als Ausreißer betrachtet wird, einen erheblichen Einfluss auf Ihr Unternehmen haben kann, sollten Sie im Allgemeinen überlegen, wie Sie mit diesen Ereignissen in Ihrer Analyse umgehen müssen. Beachten Sie diese allgemeinen Punkte bei Ausreißern:
-
Je kleiner der Datensatz ist, desto aussagekräftiger können die Auswirkungsausreißer auf die Analyse sein.
-
Achten Sie beim Entwickeln Ihres Modells darauf, dass Sie auch Techniken entwickeln, um Ausreißer zu finden und deren Auswirkungen auf Ihr Unternehmen systematisch zu verstehen.
-
Das Erkennen von Ausreißern kann ein komplexer Prozess sein. Es gibt keine einfache Möglichkeit, sie zu identifizieren.
-
Ein Domänenexperte (jemand, der das von Ihnen modellierte Feld kennt) ist Ihre beste Ansprechpartnerin, um zu überprüfen, ob ein Datenpunkt gültig ist, ein Ausreißer, den Sie ignorieren können, oder ein Ausreißer, den Sie haben. berücksichtigen. Der Domänenexperte sollte in der Lage sein, zu erklären, welche Faktoren den Ausreißer verursacht haben, welche Variabilität er aufweist und welche Auswirkungen dies auf das Unternehmen hat.
-
Visualisierungstools können Ihnen helfen, Ausreißer in den Daten zu erkennen. Wenn Sie den erwarteten Wertebereich kennen, können Sie auch problemlos Daten abfragen, die außerhalb dieses Bereichs liegen.