Zuhause Persönliche Finanzen Fehlende Werte in Ihren Daten - Dummys

Fehlende Werte in Ihren Daten - Dummys

Inhaltsverzeichnis:

Video: Daten filtern & prüfen - Fraunhofer-Idee, über 100.000 Anwender 2024

Video: Daten filtern & prüfen - Fraunhofer-Idee, über 100.000 Anwender 2024
Anonim

Eines der häufigsten und am schwersten zu bewältigenden Datenprobleme sind fehlende Daten. Dateien können unvollständig sein, weil Datensätze gelöscht wurden oder ein Speichergerät voll ist. Oder bestimmte Datenfelder enthalten möglicherweise keine Daten für einige Datensätze. Das erste dieser Probleme kann diagnostiziert werden, indem einfach die Anzahl der Datensätze für Dateien überprüft wird. Das zweite Problem ist schwieriger zu bewältigen.

Um es einfach zu formulieren: Wenn Sie ein Feld mit fehlenden Werten finden, haben Sie zwei Möglichkeiten:

  • Ignoriere es.

  • Kleben Sie etwas in das Feld.

Ignorieren des Problems

In einigen Fällen können Sie einfach ein einzelnes Feld mit einer großen Anzahl fehlender Werte finden. Wenn dies der Fall ist, ignorieren Sie einfach das Feld. Fügen Sie es nicht in Ihre Analyse ein.

Eine andere Möglichkeit, das Problem zu ignorieren, besteht darin, den Datensatz zu ignorieren. Löschen Sie einfach den Datensatz mit den fehlenden Daten. Dies kann sinnvoll sein, wenn es nur wenige Rogue-Datensätze gibt. Wenn jedoch mehrere Datenfelder vorhanden sind, die eine signifikante Anzahl fehlender Werte enthalten, kann dieser Ansatz die Anzahl der Datensätze auf ein inakzeptables Maß reduzieren.

Eine andere Sache, auf die Sie achten sollten, bevor Sie Datensätze einfach löschen, ist jedes Zeichen eines Musters. Angenommen, Sie analysieren landesweit einen Datensatz zu Kreditkartenguthaben. Sie können eine ganze Reihe von Datensätzen finden, die $ 0 anzeigen. 00 gleicht (vielleicht um die Hälfte der Aufzeichnungen). Dies ist kein Hinweis auf fehlende Daten. Wenn jedoch alle Datensätze aus, sagen wir, Kalifornien, $ 0 anzeigen. 00 gleicht aus, was ein Problem mit möglichen fehlenden Werten anzeigt. Und es ist nicht eine, die nützlich gelöst werden würde, indem man alle Aufzeichnungen vom größten Zustand im Land löscht. In diesem Fall handelt es sich wahrscheinlich um ein Systemproblem und weist darauf hin, dass eine neue Datei erstellt werden sollte.

Im Allgemeinen ist das Löschen von Datensätzen eine einfache, aber nicht ideale Lösung für fehlende Wertprobleme. Wenn das Problem relativ klein ist und es kein erkennbares Muster für die Auslassungen gibt, dann kann es in Ordnung sein, die beanstandeten Aufzeichnungen wegzulassen und weiterzugehen. Aber häufig ist ein anspruchsvollerer Ansatz gerechtfertigt.

Ausfüllen der fehlenden Daten

Das Ausfüllen der fehlenden Daten führt zu einer fundierten Vermutung darüber, was in diesem Feld gewesen wäre. Es gibt gute und schlechte Wege, dies zu tun. Ein einfacher (aber schlechter) Ansatz besteht darin, die fehlenden Werte durch den Durchschnitt der nicht fehlenden Werte zu ersetzen. In nicht numerischen Feldern könnten Sie versucht sein, die fehlenden Datensätze mit dem häufigsten Wert in den anderen Datensätzen (dem Modus) zu füllen.

Diese Ansätze werden in einigen Geschäftsanwendungen leider immer noch häufig verwendet.Aber sie werden von den Statistikern als schlechte Ideen angesehen. Zum einen besteht der Sinn der statistischen Analyse darin, Daten zu finden, die ein Ergebnis von einem anderen unterscheiden. Wenn Sie alle fehlenden Datensätze durch denselben Wert ersetzen, haben Sie nichts unterschieden.

Der anspruchsvollere Ansatz besteht darin, einen Weg zu finden, um auf aussagekräftige Weise vorherzusagen, welcher Wert bei jedem Datensatz, der einen Wert verfehlt, ausgefüllt werden soll. Dazu müssen Sie sich die vollständigen Datensätze ansehen und nach Hinweisen suchen, was der fehlende Wert sein könnte.

Angenommen, Sie analysieren eine demografische Datei, um voraussichtliche Käufer eines Ihrer Produkte vorherzusagen. In dieser Datei haben Sie unter anderem Informationen zum Familienstand, zur Anzahl der Kinder und zur Anzahl der Autos. Aus irgendeinem Grund fehlt die Anzahl der Autos in einem Drittel der Datensätze.

Durch die Analyse der anderen beiden Felder - Familienstand und Anzahl der Kinder - können Sie einige Muster entdecken. Einzelpersonen haben normalerweise ein Auto. Verheiratete Menschen ohne Kinder haben in der Regel zwei Autos. Verheiratete mit mehr als einem Kind könnten eher drei Autos haben. Auf diese Weise können Sie die fehlenden Werte so erraten, dass die Datensätze tatsächlich differenziert werden. Mehr zu diesem Ansatz.

Es gibt einen allgemeinen Begriff in der Statistik und Datenverarbeitung, der sich auf fragwürdige Daten bezieht. Der Ausdruck verrauscht wird verwendet, um Daten zu beschreiben, die unzuverlässig, korrupt oder anderweitig weniger als makellos sind. Fehlende Daten sind nur ein Beispiel dafür. Eine detaillierte Beschreibung von Techniken zur Reinigung von verrauschten Daten im Allgemeinen würde den Rahmen dieses Buches sprengen. In der Tat ist dies ein aktives Forschungsgebiet in der statistischen Theorie. Die Tatsache, dass alles Rauschen nicht so leicht zu erkennen ist wie fehlende Werte, macht es schwierig, damit umzugehen.

Fehlende Werte in Ihren Daten - Dummys

Die Wahl des Herausgebers

Netzwerkgrundlagen: IPv6-Adresse Vereinfachte Notation - Dummies

Netzwerkgrundlagen: IPv6-Adresse Vereinfachte Notation - Dummies

Bei der Arbeit mit IPv6-Adressen kann es viel Zeit in Anspruch nehmen. schreibe deine Adressen - immerhin sind sie 128 Bit lang. Um das Leben einfacher zu machen, gibt es einige Regeln, die Sie verwenden können, um diese Schreibweise zu verdichten: Führende Nullen in der Adresse sind optional. Für einen Adressblock wäre also 0A45 gleich A45, ...

Netzwerkgrundlagen: IP-Netzwerkklassen - Dummies

Netzwerkgrundlagen: IP-Netzwerkklassen - Dummies

Netzwerkadressierungsarchitektur unterteilt den Adressraum für Internet Protocol Version 4 (IPv4 ) in fünf Adressklassen. Jede Klasse, die in den ersten vier Bits der Adresse codiert ist, definiert entweder eine andere Netzwerkgröße, d.h. e. Anzahl der Hosts für Unicast-Adressen (Klassen A, B, C) oder Multicast-Netzwerk (Klasse D). Die fünfte Klasse (E) address ...

Netzwerkgrundlagen: Netzwerkport Übersicht - Dummys

Netzwerkgrundlagen: Netzwerkport Übersicht - Dummys

In TCP / IP- und UDP-Netzwerken ist ein Port ein Endpunkt eine logische Verbindung. Die Portnummer gibt an, um welchen Port es sich handelt. Port 80 wird beispielsweise für HTTP-Datenverkehr verwendet. Wenn Sie einen Befehl wie netstat -n unter Microsoft Windows oder Linux verwenden, sehen Sie eine Auflistung der lokalen Adressen ...

Die Wahl des Herausgebers

Excel-Dashboards: Wie Sie Ihr erstes Makro aufzeichnen - Dummies

Excel-Dashboards: Wie Sie Ihr erstes Makro aufzeichnen - Dummies

Wenn Sie ein Anfänger auf dem Dashboard sind Automatisierung in Excel ist es unwahrscheinlich, dass Sie den VBA-Code (Visual Basic für Applikationen) von Hand schreiben können, um Makros zu erstellen. Ohne vollständige Kenntnis des Objektmodells und der Syntax von Excel wäre das Schreiben des benötigten Codes für die meisten Anfänger unmöglich. Hier können Sie ein Makro aufzeichnen ...

Excel-Formelberechnungsmodi - Dummys

Excel-Formelberechnungsmodi - Dummys

Standardmäßig ist Excel so eingestellt, dass es automatisch neu berechnet wird. Wenn Sie eine der Zellen ändern, auf die in einer bestimmten Formel verwiesen wird, berechnet Excel diese Formel automatisch neu, sodass ein korrektes Ergebnis basierend auf den Änderungen in den Zellbezügen zurückgegeben wird. Wenn die Formel, die neu berechnet wird, auch als Zellenreferenz in anderen verwendet wird ...

Excel Formelfehler - Dummies

Excel Formelfehler - Dummies

Es ist nicht immer glatt, wenn Sie mit Excel-Formeln arbeiten. Manchmal gibt eine Formel einen Fehlerwert anstelle des erwarteten Werts zurück. Excel hilft Ihnen, das Problem zu identifizieren, indem Sie einen von sieben Fehlerwerten zurückgeben: # DIV / 0! , # N / A, #NAME? , #NULL! , #NUM! , #REF! und #WERT! , erklärt in der folgenden Liste: # DIV / 0! : ...

Die Wahl des Herausgebers

Teilen, Weiterverbreiten und Kommentieren von Google+ Posts - Dummies

Teilen, Weiterverbreiten und Kommentieren von Google+ Posts - Dummies

, Wenn Sie mit der Verwendung und Veröffentlichung beginnen Bei Google+ möchten Sie gelegentlich Links und Bilder teilen, die Beiträge anderer freigeben, ihre Beiträge kommentieren und andere in Ihren eigenen Google+ Beiträgen erwähnen. Vielleicht fragen Sie sich auch, wie Sie andere dazu bringen, Ihre eigenen Beiträge öfter zu kommentieren. Teilen von Links und Bildern in Google+ So geben Sie ein ...

Teilen Ihrer Google+ Posts mit bestimmten Personen - Dummies

Teilen Ihrer Google+ Posts mit bestimmten Personen - Dummies

Beiträge auf Google+ sind ganz einfach und können posten Text, Links, Fotos, Videos und sogar Ihren aktuellen Standort. Der schwierigste Teil des Beitrags auf Google+ besteht darin, auszuwählen, wen Sie Ihren Beitrag sehen möchten. Google+ verwendet Ihre Kreise, um festzulegen, wer Ihre Beiträge sehen kann. Kreise sind etwas einfacher als Listen, weil ...

Taggen von Personen in Google+ Fotos - Dummies

Taggen von Personen in Google+ Fotos - Dummies

Sie können Personen in Ihren Kreisen auf jedem Foto auf Google+ markieren. Wenn Sie eine Person in einem Foto taggen, wird diese Person über ihre Google+ Benachrichtigungen benachrichtigt. Sie können dann das Tag entfernen oder genehmigen, und das Foto wird mit dem Tag des Namens dieser Person darin angezeigt. Um jemanden zu markieren, ...