Zuhause Persönliche Finanzen Fehlende Werte in Ihren Daten - Dummys

Fehlende Werte in Ihren Daten - Dummys

Inhaltsverzeichnis:

Video: Daten filtern & prüfen - Fraunhofer-Idee, über 100.000 Anwender 2025

Video: Daten filtern & prüfen - Fraunhofer-Idee, über 100.000 Anwender 2025
Anonim

Eines der häufigsten und am schwersten zu bewältigenden Datenprobleme sind fehlende Daten. Dateien können unvollständig sein, weil Datensätze gelöscht wurden oder ein Speichergerät voll ist. Oder bestimmte Datenfelder enthalten möglicherweise keine Daten für einige Datensätze. Das erste dieser Probleme kann diagnostiziert werden, indem einfach die Anzahl der Datensätze für Dateien überprüft wird. Das zweite Problem ist schwieriger zu bewältigen.

Um es einfach zu formulieren: Wenn Sie ein Feld mit fehlenden Werten finden, haben Sie zwei Möglichkeiten:

  • Ignoriere es.

  • Kleben Sie etwas in das Feld.

Ignorieren des Problems

In einigen Fällen können Sie einfach ein einzelnes Feld mit einer großen Anzahl fehlender Werte finden. Wenn dies der Fall ist, ignorieren Sie einfach das Feld. Fügen Sie es nicht in Ihre Analyse ein.

Eine andere Möglichkeit, das Problem zu ignorieren, besteht darin, den Datensatz zu ignorieren. Löschen Sie einfach den Datensatz mit den fehlenden Daten. Dies kann sinnvoll sein, wenn es nur wenige Rogue-Datensätze gibt. Wenn jedoch mehrere Datenfelder vorhanden sind, die eine signifikante Anzahl fehlender Werte enthalten, kann dieser Ansatz die Anzahl der Datensätze auf ein inakzeptables Maß reduzieren.

Eine andere Sache, auf die Sie achten sollten, bevor Sie Datensätze einfach löschen, ist jedes Zeichen eines Musters. Angenommen, Sie analysieren landesweit einen Datensatz zu Kreditkartenguthaben. Sie können eine ganze Reihe von Datensätzen finden, die $ 0 anzeigen. 00 gleicht (vielleicht um die Hälfte der Aufzeichnungen). Dies ist kein Hinweis auf fehlende Daten. Wenn jedoch alle Datensätze aus, sagen wir, Kalifornien, $ 0 anzeigen. 00 gleicht aus, was ein Problem mit möglichen fehlenden Werten anzeigt. Und es ist nicht eine, die nützlich gelöst werden würde, indem man alle Aufzeichnungen vom größten Zustand im Land löscht. In diesem Fall handelt es sich wahrscheinlich um ein Systemproblem und weist darauf hin, dass eine neue Datei erstellt werden sollte.

Im Allgemeinen ist das Löschen von Datensätzen eine einfache, aber nicht ideale Lösung für fehlende Wertprobleme. Wenn das Problem relativ klein ist und es kein erkennbares Muster für die Auslassungen gibt, dann kann es in Ordnung sein, die beanstandeten Aufzeichnungen wegzulassen und weiterzugehen. Aber häufig ist ein anspruchsvollerer Ansatz gerechtfertigt.

Ausfüllen der fehlenden Daten

Das Ausfüllen der fehlenden Daten führt zu einer fundierten Vermutung darüber, was in diesem Feld gewesen wäre. Es gibt gute und schlechte Wege, dies zu tun. Ein einfacher (aber schlechter) Ansatz besteht darin, die fehlenden Werte durch den Durchschnitt der nicht fehlenden Werte zu ersetzen. In nicht numerischen Feldern könnten Sie versucht sein, die fehlenden Datensätze mit dem häufigsten Wert in den anderen Datensätzen (dem Modus) zu füllen.

Diese Ansätze werden in einigen Geschäftsanwendungen leider immer noch häufig verwendet.Aber sie werden von den Statistikern als schlechte Ideen angesehen. Zum einen besteht der Sinn der statistischen Analyse darin, Daten zu finden, die ein Ergebnis von einem anderen unterscheiden. Wenn Sie alle fehlenden Datensätze durch denselben Wert ersetzen, haben Sie nichts unterschieden.

Der anspruchsvollere Ansatz besteht darin, einen Weg zu finden, um auf aussagekräftige Weise vorherzusagen, welcher Wert bei jedem Datensatz, der einen Wert verfehlt, ausgefüllt werden soll. Dazu müssen Sie sich die vollständigen Datensätze ansehen und nach Hinweisen suchen, was der fehlende Wert sein könnte.

Angenommen, Sie analysieren eine demografische Datei, um voraussichtliche Käufer eines Ihrer Produkte vorherzusagen. In dieser Datei haben Sie unter anderem Informationen zum Familienstand, zur Anzahl der Kinder und zur Anzahl der Autos. Aus irgendeinem Grund fehlt die Anzahl der Autos in einem Drittel der Datensätze.

Durch die Analyse der anderen beiden Felder - Familienstand und Anzahl der Kinder - können Sie einige Muster entdecken. Einzelpersonen haben normalerweise ein Auto. Verheiratete Menschen ohne Kinder haben in der Regel zwei Autos. Verheiratete mit mehr als einem Kind könnten eher drei Autos haben. Auf diese Weise können Sie die fehlenden Werte so erraten, dass die Datensätze tatsächlich differenziert werden. Mehr zu diesem Ansatz.

Es gibt einen allgemeinen Begriff in der Statistik und Datenverarbeitung, der sich auf fragwürdige Daten bezieht. Der Ausdruck verrauscht wird verwendet, um Daten zu beschreiben, die unzuverlässig, korrupt oder anderweitig weniger als makellos sind. Fehlende Daten sind nur ein Beispiel dafür. Eine detaillierte Beschreibung von Techniken zur Reinigung von verrauschten Daten im Allgemeinen würde den Rahmen dieses Buches sprengen. In der Tat ist dies ein aktives Forschungsgebiet in der statistischen Theorie. Die Tatsache, dass alles Rauschen nicht so leicht zu erkennen ist wie fehlende Werte, macht es schwierig, damit umzugehen.

Fehlende Werte in Ihren Daten - Dummys

Die Wahl des Herausgebers

Photoshop 7 Navigationswerkzeuge - dummies

Photoshop 7 Navigationswerkzeuge - dummies

Photoshop 7 bietet alle Möglichkeiten, durch die Funktionen zu navigieren, egal ob Sie eine Mac oder ein Windows-System. In der folgenden Tabelle finden Sie Informationen zum Scrollen, Zoomen und Durchlaufen von Photoshop 7: Action Windows Mac Scrollen Sie mit der Leertaste + ziehen Sie die Leertaste + Strg + Leertaste + klicken Sie auf Apple Command + Leertaste + klicken Sie auf Vergrößern und ändern ...

Photoshop 7 Mal- und bearbeitungswerkzeuge - dummies

Photoshop 7 Mal- und bearbeitungswerkzeuge - dummies

In Photoshop 7 sind die Tastenkombinationen für Mal- und Bearbeitungswerkzeuge meist das Gleiche, ob Sie ein Windows-basiertes System oder einen Mac verwenden. Der einzige Unterschied besteht im letzten Eintrag in der folgenden Tabelle, in der die Verknüpfungen angezeigt werden: Erhöhen der Pinselgröße] Verringern der Pinselgröße [Ändern der Deckkraft oder des Werkzeugflusses 1, ...

Photoshop 7 Paletten-Werkzeuge - Dummies

Photoshop 7 Paletten-Werkzeuge - Dummies

Die Paletten von Photoshop 7 geben Ihnen Zugriff auf Gruppen verwandter Werkzeuge. Wenn Sie sich also auf Farbe konzentrieren, können Sie die Farbpalette aufziehen und Ihre Photoshop-Bilder mit einem Regenbogen von Schattierungen beleben. Die folgende Tabelle zeigt den Zugriff auf die verschiedenen Photoshop 7-Paletten in Windows- und Mac-Systemen: Palette / Aktion ...

Die Wahl des Herausgebers

Fantasy Fußball für Dummies Cheat Sheet - Dummies

Fantasy Fußball für Dummies Cheat Sheet - Dummies

Fantasy Fußball ist ein Spaß, wettbewerbsfähig und süchtig machendes Hobby. Bringen Sie Ihre Fantasy-Saison in Schwung, indem Sie Spieler entwerfen, um ein solides Team aufzubauen und Coaching-Tipps verwenden, um Ihr Team stark zu machen. Wenn Sie eine Position verbessern müssen, probieren Sie einige Strategien für den Handel mit Spielern und den Erwerb freier Agenten aus. Halten Sie einen Führer handlich von ...

Wie Fantasy-Fußball-Playoffs funktionieren - Dummies

Wie Fantasy-Fußball-Playoffs funktionieren - Dummies

Wenn du das Ende deiner Fantasy-Football-Saison erreichst, wenn sie vorbei ist Nun, Sie sind vielleicht im Streit, um die Playoffs zu machen. Wenn das der Fall ist, herzlichen Glückwunsch! Mit diesen Rechten geht es um dieses Spiel, und Sie sind dem ultimativen Preis einen Schritt näher. Wenn nicht, fühle dich nicht schlecht. ...

Bereiten Sie Ihre Fantasy Football Roster für die Draft - Dummies

Bereiten Sie Ihre Fantasy Football Roster für die Draft - Dummies

Vor, wenn Sie Ihre Fantasy Football League erforschen und herausfinden Wie viele Dienstplan-Spots Sie haben, können Sie Ihre Aufmerksamkeit darauf lenken, Ihren Entwurf basierend auf diesen Anforderungen vorzubereiten. Sie können Ihren eigenen Dienstplan-Spickzettel aus CheatSheet War Room ausdrucken. Neben dem Listenblatt finden Sie weitere kostenlose druckbare Fantasy-Fußball ...

Die Wahl des Herausgebers

Erstellen eines neuen Dokuments aus CSS-Starterseiten in Dreamweaver CS6 - Dummies

Erstellen eines neuen Dokuments aus CSS-Starterseiten in Dreamweaver CS6 - Dummies

Adobe Dreamweaver CS6 bietet Ihnen eine Bibliothek von Beispielseiten mit CSS-basierten Layouts als Alternative zum Neuanfang. Diese CSS-Beispielseiten enthalten nützliche und allgemeine Layoutideen, und da sie mit CSS-Positionierung erstellt werden, sind sie sehr flexibel. Sie können sie direkt im Bedienfeld "CSS-Stile" oder im Eigenschafteninspektor ändern. ...