Zuhause Persönliche Finanzen Fehlende Werte in Ihren Daten - Dummys

Fehlende Werte in Ihren Daten - Dummys

Inhaltsverzeichnis:

Video: Daten filtern & prüfen - Fraunhofer-Idee, über 100.000 Anwender 2025

Video: Daten filtern & prüfen - Fraunhofer-Idee, über 100.000 Anwender 2025
Anonim

Eines der häufigsten und am schwersten zu bewältigenden Datenprobleme sind fehlende Daten. Dateien können unvollständig sein, weil Datensätze gelöscht wurden oder ein Speichergerät voll ist. Oder bestimmte Datenfelder enthalten möglicherweise keine Daten für einige Datensätze. Das erste dieser Probleme kann diagnostiziert werden, indem einfach die Anzahl der Datensätze für Dateien überprüft wird. Das zweite Problem ist schwieriger zu bewältigen.

Um es einfach zu formulieren: Wenn Sie ein Feld mit fehlenden Werten finden, haben Sie zwei Möglichkeiten:

  • Ignoriere es.

  • Kleben Sie etwas in das Feld.

Ignorieren des Problems

In einigen Fällen können Sie einfach ein einzelnes Feld mit einer großen Anzahl fehlender Werte finden. Wenn dies der Fall ist, ignorieren Sie einfach das Feld. Fügen Sie es nicht in Ihre Analyse ein.

Eine andere Möglichkeit, das Problem zu ignorieren, besteht darin, den Datensatz zu ignorieren. Löschen Sie einfach den Datensatz mit den fehlenden Daten. Dies kann sinnvoll sein, wenn es nur wenige Rogue-Datensätze gibt. Wenn jedoch mehrere Datenfelder vorhanden sind, die eine signifikante Anzahl fehlender Werte enthalten, kann dieser Ansatz die Anzahl der Datensätze auf ein inakzeptables Maß reduzieren.

Eine andere Sache, auf die Sie achten sollten, bevor Sie Datensätze einfach löschen, ist jedes Zeichen eines Musters. Angenommen, Sie analysieren landesweit einen Datensatz zu Kreditkartenguthaben. Sie können eine ganze Reihe von Datensätzen finden, die $ 0 anzeigen. 00 gleicht (vielleicht um die Hälfte der Aufzeichnungen). Dies ist kein Hinweis auf fehlende Daten. Wenn jedoch alle Datensätze aus, sagen wir, Kalifornien, $ 0 anzeigen. 00 gleicht aus, was ein Problem mit möglichen fehlenden Werten anzeigt. Und es ist nicht eine, die nützlich gelöst werden würde, indem man alle Aufzeichnungen vom größten Zustand im Land löscht. In diesem Fall handelt es sich wahrscheinlich um ein Systemproblem und weist darauf hin, dass eine neue Datei erstellt werden sollte.

Im Allgemeinen ist das Löschen von Datensätzen eine einfache, aber nicht ideale Lösung für fehlende Wertprobleme. Wenn das Problem relativ klein ist und es kein erkennbares Muster für die Auslassungen gibt, dann kann es in Ordnung sein, die beanstandeten Aufzeichnungen wegzulassen und weiterzugehen. Aber häufig ist ein anspruchsvollerer Ansatz gerechtfertigt.

Ausfüllen der fehlenden Daten

Das Ausfüllen der fehlenden Daten führt zu einer fundierten Vermutung darüber, was in diesem Feld gewesen wäre. Es gibt gute und schlechte Wege, dies zu tun. Ein einfacher (aber schlechter) Ansatz besteht darin, die fehlenden Werte durch den Durchschnitt der nicht fehlenden Werte zu ersetzen. In nicht numerischen Feldern könnten Sie versucht sein, die fehlenden Datensätze mit dem häufigsten Wert in den anderen Datensätzen (dem Modus) zu füllen.

Diese Ansätze werden in einigen Geschäftsanwendungen leider immer noch häufig verwendet.Aber sie werden von den Statistikern als schlechte Ideen angesehen. Zum einen besteht der Sinn der statistischen Analyse darin, Daten zu finden, die ein Ergebnis von einem anderen unterscheiden. Wenn Sie alle fehlenden Datensätze durch denselben Wert ersetzen, haben Sie nichts unterschieden.

Der anspruchsvollere Ansatz besteht darin, einen Weg zu finden, um auf aussagekräftige Weise vorherzusagen, welcher Wert bei jedem Datensatz, der einen Wert verfehlt, ausgefüllt werden soll. Dazu müssen Sie sich die vollständigen Datensätze ansehen und nach Hinweisen suchen, was der fehlende Wert sein könnte.

Angenommen, Sie analysieren eine demografische Datei, um voraussichtliche Käufer eines Ihrer Produkte vorherzusagen. In dieser Datei haben Sie unter anderem Informationen zum Familienstand, zur Anzahl der Kinder und zur Anzahl der Autos. Aus irgendeinem Grund fehlt die Anzahl der Autos in einem Drittel der Datensätze.

Durch die Analyse der anderen beiden Felder - Familienstand und Anzahl der Kinder - können Sie einige Muster entdecken. Einzelpersonen haben normalerweise ein Auto. Verheiratete Menschen ohne Kinder haben in der Regel zwei Autos. Verheiratete mit mehr als einem Kind könnten eher drei Autos haben. Auf diese Weise können Sie die fehlenden Werte so erraten, dass die Datensätze tatsächlich differenziert werden. Mehr zu diesem Ansatz.

Es gibt einen allgemeinen Begriff in der Statistik und Datenverarbeitung, der sich auf fragwürdige Daten bezieht. Der Ausdruck verrauscht wird verwendet, um Daten zu beschreiben, die unzuverlässig, korrupt oder anderweitig weniger als makellos sind. Fehlende Daten sind nur ein Beispiel dafür. Eine detaillierte Beschreibung von Techniken zur Reinigung von verrauschten Daten im Allgemeinen würde den Rahmen dieses Buches sprengen. In der Tat ist dies ein aktives Forschungsgebiet in der statistischen Theorie. Die Tatsache, dass alles Rauschen nicht so leicht zu erkennen ist wie fehlende Werte, macht es schwierig, damit umzugehen.

Fehlende Werte in Ihren Daten - Dummys

Die Wahl des Herausgebers

Zusammen zieht, um Sicherheitstestergebnisse für Reporting - Dummies

Zusammen zieht, um Sicherheitstestergebnisse für Reporting - Dummies

Zusammen zu ziehen, wenn Sie Sicherheitstestdaten haben - Von Screenshots und manuellen Beobachtungen bis hin zu detaillierten Berichten, die von den verschiedenen von Ihnen verwendeten Schwachstellen-Scannern erstellt wurden - was machen Sie damit? Sie müssen Ihre Dokumentation mit einem fein gezahnten Kamm durchgehen und alle Bereiche hervorheben, die hervorstechen. Base ...

Wie man Datenbank-Schwachstellen minimiert, um Hacked-Dummys

Wie man Datenbank-Schwachstellen minimiert, um Hacked-Dummys

Datenbank-Systeme wie Microsoft SQL Server zu vermeiden , MySQL und Oracle, haben hinter den Kulissen gelauert, aber ihr Wert und ihre Schwachstellen sind endlich in den Vordergrund gerückt. Ja, sogar das mächtige Orakel, das einmal für unbarmherzig gehalten wurde, ist anfällig für ähnliche Heldentaten wie seine Konkurrenz. Mit der Vielzahl von regulatorischen Anforderungen für die Datenbank ...

Zeitersparnis Installieren von vSphere 4. 1 - dummies

Zeitersparnis Installieren von vSphere 4. 1 - dummies

Installieren von VMware vSphere 4. 1 ist ein Komplexer Prozess; Sie sollten tun, was Sie können, um die Installation reibungsloser zu machen. Wenn Sie sich auf die Installation von vSphere vorbereiten, sollten Sie diese praktische Checkliste verwenden, um Zeit und Mühe zu sparen: Freigegebener Speicher: vSphere erfordert gemeinsam genutzten Speicher für Funktionen wie vMotion und ...

Die Wahl des Herausgebers

Wie man Abstammung interpretiert. com Suchergebnisse - Dummies

Wie man Abstammung interpretiert. com Suchergebnisse - Dummies

Ausführen eines Ancestry. Die Suche ist nur die halbe Miete. Im nächsten Teil werden die Suchergebnisse durchsucht, um nützliche Informationen zu Ihrem jeweiligen Vorfahren zu finden.

Wie man nach militärischen Aufzeichnungen sucht - dummies

Wie man nach militärischen Aufzeichnungen sucht - dummies

Eine interessante Sammlung von militärischen Aufzeichnungen, die man für seine Genealogie suchen kann, ist die Soldaten- und Seemannssystem des Bürgerkriegs (CWSS). Die CWSS-Website ist ein Gemeinschaftsprojekt des National Park Service, der Genealogical Society of Utah und der Federation of Genealogical Societies. Die Website enthält einen Index von mehr als 6. 3 Millionen Soldaten ...

Wie man lebenswichtige genealogische Aufzeichnungen liest - Attrappen

Wie man lebenswichtige genealogische Aufzeichnungen liest - Attrappen

Vitale Aufzeichnungen gehören zu den ersten Gruppen von Primärquellen, die normalerweise von Genealogen benutzt werden .. Diese Aufzeichnungen enthalten Schlüssel und normalerweise zuverlässige Informationen, da sie in der Nähe des Ereignisses erstellt wurden und ein Zeuge des Ereignisses die Informationen lieferte. (Außerhalb der Vereinigten Staaten werden lebenswichtige Aufzeichnungen oft als zivile Registrierungen bezeichnet.) Geburtsaufzeichnungen ...

Die Wahl des Herausgebers

Ermittlung des maximalen Gewinns (Verlust) für Optionskontrakte der Serie 7 Exam - Dummies

Ermittlung des maximalen Gewinns (Verlust) für Optionskontrakte der Serie 7 Exam - Dummies

Optionskontrakte bieten Anlegern Sicherheit und die Serie 7 erwartet, dass Sie den maximalen Gewinn und Verlust für diese bestimmen können. Wenn ein Anleger Optionskontrakte auf Wertpapiere kauft oder verkauft, die er besitzt, wählt er eine ausgezeichnete Möglichkeit, um sich vor Verlust zu schützen oder zusätzliche Gelder auf sein Konto zu bringen. ...

Informationen über Zinserträge für die Series 7 Exam - Dummies

Informationen über Zinserträge für die Series 7 Exam - Dummies

Für die Series 7 Prüfung müssen Sie verstehen, wie sich Dividenden, Zinsen, Kapitalgewinne und Kapitalverluste auf Anleger auswirken. Zinserträge, die Anleihegläubiger erhalten, können abhängig von der Art des Wertpapiers oder der gehaltenen Wertpapiere steuerpflichtig sein: Unternehmensanleihezinsen: Zinsen aus Unternehmensanleihen sind auf allen Ebenen steuerpflichtig (Bundes-, Staats- und ...

Verwendung der Mittelwertbildung für die Dollar-Kosten auf der Series 7-Prüfung - Dummies

Verwendung der Mittelwertbildung für die Dollar-Kosten auf der Series 7-Prüfung - Dummies

Wenn ein Investor die Dollar-Kosten-Mittelungsformel anwendet, investiert er periodisch den gleichen Dollarbetrag in dieselbe Investition. Die Serie 7 erwartet, dass Sie mit dieser Formel vertraut sind. Obwohl Mittelwertbildung für Dollar vor allem für Investmentfonds verwendet wird, können sie auch für andere Anlagen verwendet werden. Dollar Kosten Mittelung Vorteile ...