Zuhause Persönliche Finanzen 8 Best Practices in der Datenaufbereitung - Dummies

8 Best Practices in der Datenaufbereitung - Dummies

Inhaltsverzeichnis:

Video: THE BEST SHOW IN AUSTRALIA! 2025

Video: THE BEST SHOW IN AUSTRALIA! 2025
Anonim

Statistische Softwarepakete sind heutzutage extrem leistungsfähig, können aber keine Daten von schlechter Qualität bewältigen. Im Folgenden finden Sie eine Checkliste der Dinge, die Sie tun müssen, bevor Sie statistische Modelle erstellen.

Datenformate prüfen

Ihre Analyse beginnt immer mit einer Rohdatendatei. Rohdatendateien gibt es in vielen verschiedenen Formen und Größen. Mainframe-Daten unterscheiden sich von PC-Daten, Tabellenkalkulationsdaten sind anders formatiert als Webdaten und so weiter. Und im Zeitalter der Big Data werden Sie sicherlich mit Daten aus verschiedenen Quellen konfrontiert sein. Ihr erster Schritt bei der Analyse Ihrer Daten besteht darin, dass Sie die Dateien, die Sie erhalten, lesen können.

Sie müssen sich tatsächlich ansehen, was in jedem Feld enthalten ist. Zum Beispiel ist es nicht klug, dem zu vertrauen, nur weil ein Feld als ein Zeichenfeld aufgeführt ist, enthält es tatsächlich Zeichendaten.

Datentypen überprüfen

Alle Daten fallen in eine von vier Kategorien, die sich darauf auswirken, welche Art von Statistik Sie entsprechend anwenden können:

  • Nominaldaten sind im Wesentlichen nur ein Name oder ein Bezeichner.

  • Ordinaldaten ordnen die Datensätze vom niedrigsten bis zum höchsten Wert in Reihenfolge.

  • Intervalldaten stellen Werte dar, bei denen die Unterschiede zwischen ihnen vergleichbar sind.

  • Verhältnisdaten sind wie Intervalldaten, außer dass sie auch einen Wert von 0 zulassen.

Es ist wichtig zu verstehen, in welche Kategorien Ihre Daten fallen, bevor Sie sie in die Statistiksoftware einspeisen. Andernfalls riskieren Sie, mit perfekt vernünftigem Kauderwelsch zu enden.

Zeichnen Sie Ihre Daten auf

Es ist wichtig, ein Gefühl dafür zu bekommen, wie Ihre Daten verteilt sind. Sie können statistische Prozeduren ausführen, bis Sie blau im Gesicht sind, aber keine von ihnen wird Ihnen so viel Einblick geben, wie Ihre Daten als einfaches Diagramm aussehen.

Überprüfen der Datengenauigkeit

Sobald Sie sich damit vertraut gemacht haben, dass die Daten so formatiert sind, wie Sie es möchten, müssen Sie sicherstellen, dass sie genau und sinnvoll ist. Dieser Schritt setzt voraus, dass Sie über Kenntnisse des Fachgebiets verfügen, in dem Sie arbeiten.

Es gibt keinen wirklich einfachen Ansatz zur Überprüfung der Datengenauigkeit. Die Grundidee besteht darin, einige Eigenschaften zu formulieren, von denen Sie denken, dass die Daten diese anzeigen sollten, und die Daten zu testen, um zu sehen, ob diese Eigenschaften gültig sind. Sind Aktienkurse immer positiv? Stimmen alle Produktcodes mit der Liste der gültigen Codes überein? Im Wesentlichen versuchen Sie herauszufinden, ob die Daten wirklich das sind, was Ihnen gesagt wurde.

Ausreißer identifizieren

Ausreißer sind Datenpunkte, die nicht mit den übrigen Daten übereinstimmen. Sie sind entweder sehr große oder sehr kleine Werte im Vergleich zum Rest des Datensatzes.

Ausreißer sind problematisch, weil sie Statistiken und statistische Verfahren ernsthaft gefährden können. Ein einzelner Ausreißer kann einen großen Einfluss auf den Wert des Mittelwerts haben. Da der Mittelwert das Zentrum der Daten darstellen soll, macht dieser eine Ausreißer den Mittelwert nutzlos.

Wenn Sie mit Ausreißern konfrontiert werden, besteht die häufigste Strategie darin, sie zu löschen. In einigen Fällen möchten Sie diese jedoch möglicherweise berücksichtigen. In diesen Fällen ist es normalerweise wünschenswert, die Analyse zweimal durchzuführen - einmal mit Ausreißern und einmal mit Ausreißern. Auf diese Weise können Sie bewerten, welche Methode nützlichere Ergebnisse liefert.

Umgang mit fehlenden Werten

Fehlende Werte sind eines der häufigsten (und ärgerlichsten) Datenprobleme, denen Sie begegnen werden. Ihr erster Impuls könnte sein, Datensätze mit fehlenden Werten aus Ihrer Analyse zu löschen. Das Problem dabei ist, dass fehlende Werte häufig nicht nur zufällige kleine Datenfehler sind.

Überprüfen Sie Ihre Annahmen über die Verteilung der Daten

Viele statistische Verfahren hängen von der Annahme ab, dass die Daten auf eine bestimmte Weise verteilt sind. Wenn diese Annahme nicht der Fall ist, leidet die Genauigkeit Ihrer Vorhersagen.

Die häufigste Annahme für die in diesem Buch diskutierten Modellierungstechniken ist, dass die Daten normal verteilt sind.

Oder nicht. In Fällen, in denen die Daten nicht so verteilt werden, wie Sie es benötigen, geht nicht alles verloren. Es gibt eine Vielzahl von Möglichkeiten, Daten zu transformieren, um die Verteilung in die Form zu bringen, in der sie benötigt wird.

Eine der besten Möglichkeiten, die Genauigkeit eines statistischen Modells zu überprüfen, besteht darin, es tatsächlich anhand der Daten zu testen, sobald es erstellt wurde. Eine Möglichkeit, dies zu tun, ist die zufällige Aufteilung Ihres Datensatzes in zwei Dateien. Sie können diese Dateien jeweils Analysis und Test nennen.

Sie müssen die Daten nach dem Zufallsprinzip aufteilen, um wirksam zu sein. Sie können den Datensatz beispielsweise nicht einfach in die obere und die untere Hälfte aufteilen. Fast alle Datendateien sind irgendwie sortiert - nach Datum, wenn nichts anderes. Dies führt zu systematischen Mustern, die verschiedenen Teilen der Datei unterschiedliche statistische Eigenschaften verleihen. Wenn Sie die Datei zufällig teilen, geben Sie jedem Datensatz die gleiche Chance, in einer der beiden Dateien zu sein. Im übertragenen Sinn werfen Sie für jeden Datensatz eine Münze, um zu entscheiden, in welche Datei sie geht. Zufälligkeit gibt beiden Dateien die gleichen statistischen Eigenschaften wie die Originaldaten.

Nachdem Sie den Datensatz geteilt haben, legen Sie die Testdatei beiseite. Fahren Sie dann mit dem Erstellen Ihres Vorhersagemodells mithilfe der Analysedatei fort. Sobald das Modell erstellt ist, wenden Sie es auf die Testdatei an und sehen Sie, wie es funktioniert.

Das Testen von Modellen auf diese Weise hilft gegen ein Phänomen zu schützen, das als Überanpassung bekannt ist. Im Wesentlichen ist es für statistische Verfahren möglich, die Datendatei zu speichern, anstatt sinnvolle Beziehungen zwischen den Variablen zu entdecken. Wenn es zu einer Überanpassung kommt, testet das Modell recht schlecht mit der Testdatei.

Sichern und dokumentieren Sie alles, was Sie tun

Da statistische Software so einfach zu bedienen ist, ist es ein Kinderspiel, Berichte und Grafiken zu erstellen, ganz zu schweigen von Datendateien.Sie können Prozeduren buchstäblich auf Knopfdruck ausführen. Sie können mehrere Dutzend Graphen basierend auf verschiedenen Datentransformationen in wenigen Minuten generieren. Das macht es ziemlich einfach, den Überblick darüber zu verlieren, was Sie getan haben und warum.

Es ist wichtig sicherzustellen, dass Sie eine schriftliche Aufzeichnung darüber führen, was Sie vorhaben. Diagramme sollten mit dem Namen (und der Version) der Daten gekennzeichnet werden, mit denen sie erstellt wurden. Statistische Verfahren, die Sie erstellen, müssen gespeichert und dokumentiert werden.

Es ist auch wichtig, Ihre Datendateien zu sichern. Im Verlauf Ihrer Analyse werden Sie wahrscheinlich mehrere Versionen Ihrer Daten erstellen, die verschiedene Korrekturen und Transformationen von Variablen widerspiegeln. Sie sollten die Prozeduren speichern, die diese Versionen erstellt haben. Sie sollten auch so dokumentiert werden, dass sie beschreiben, welche Transformationen Sie vorgenommen haben und warum.

Dokumentation ist keine Lieblingsaufgabe von jemandem, aber wir sprechen aus Erfahrung, wenn wir Sie dringend dazu auffordern, sich nicht auf Ihr Gedächtnis zu verlassen, wenn es um Ihre Analyseprojekte geht.

Indem Sie die eben beschriebenen Schritte ausführen, maximieren Sie die Zuverlässigkeit Ihrer statistischen Modelle. In vielen Fällen ist die Vorbereitung tatsächlich zeitaufwändiger als die eigentliche Modellbildung. Aber es ist notwendig. Und Sie werden sich am Ende dafür bedanken, dass Sie es methodisch durchgearbeitet haben.

8 Best Practices in der Datenaufbereitung - Dummies

Die Wahl des Herausgebers

Wie man Dateien in C ++ kopiert - Dummies

Wie man Dateien in C ++ kopiert - Dummies

Ah, eine Datei kopieren - etwas so einfaches, es passiert alles Zeit. Kopiere diese Datei dorthin; Kopieren Sie diese Datei hier. Aber was genau passiert, wenn Sie eine Datei kopieren? Sie erstellen tatsächlich eine neue Datei und füllen diese mit dem gleichen Inhalt wie die Originaldatei. Und wie machst du das? Nun, ...

Anleitung zum Erstellen eines Verzeichnisses in C ++ - Dummies

Anleitung zum Erstellen eines Verzeichnisses in C ++ - Dummies

Wenn Sie ein Verzeichnis erstellen möchten, können Sie das MKdir Funktion. Wenn die Funktion das Verzeichnis für Sie erstellen kann, gibt sie eine 0 zurück. Andernfalls wird ein Wert ungleich Null zurückgegeben. (Wenn Sie es ausführen, erhalten Sie eine -1, aber Ihre beste Wette - immer - ist es, gegen 0 zu testen.) Hier ist einige ...

Wie man eine einfache mathematische Vorlage in C ++ - Dummies

Wie man eine einfache mathematische Vorlage in C ++ - Dummies

Mit einer mathematischen Vorlage erstellt, die man normalerweise benötigt Zugriff auf eine Vielzahl von Berechnungen, aber nur jeweils eine oder zwei dieser Berechnungen. Zum Beispiel, wenn jemand Ihre Hypothek berechnet, muss er die Amortisationsrechnung nicht kennen. Die Person kann jedoch die Amortisationsberechnung benötigen, wenn Sie mit ...

Die Wahl des Herausgebers

ASVAB: Lesen für die Studie - Dummies

ASVAB: Lesen für die Studie - Dummies

Lesen für die Zwecke des Studiums der ASVAB ist eine andere Art des Lesens. Leseverständnis erfordert nur, dass Sie Informationen lange genug im Kurzzeitgedächtnis speichern, um einige Sekunden später eine Frage zu beantworten. Zum Lesen für die Zwecke des Studiums müssen Sie wichtige Informationen in Ihr Langzeitgedächtnis einpflegen - ...

ASVAB Mathematik Wissenspraxis: Ungleichungen - Dummies

ASVAB Mathematik Wissenspraxis: Ungleichungen - Dummies

Als wäre Algebra nicht anspruchsvoll genug, einige Fragen zur Der Subtest Mathematik auf dem ASVAB wird auch eine Ungleichheit einwerfen - nur um sicherzustellen, dass Sie aufmerksam sind. Wie erkennst du eine Ungleichheit? Halten Sie Ausschau nach Fragen mit mehr als oder weniger als Symbolen oder nach Graphen, die eine Zahlenlinie mit einem ...

ASVAB Mathematische Wissenspraxis: Fraktionen - Dummies

ASVAB Mathematische Wissenspraxis: Fraktionen - Dummies

Der Subtest Mathematikwissen auf dem ASVAB wird Fragen beinhalten, die Sie fragen mit Teilen eines Ganzen oder Fraktionen arbeiten. Diese Fragen können das Multiplizieren, Dividieren, Addieren, Subtrahieren und Konvertieren von Brüchen beinhalten, ähnlich den folgenden Übungsfragen. Übungsfragen Welche Fraktionen sind nicht gleichwertig? Gegeben einfach den Ausdruck. Antworten und Erklärungen Das richtige ...

Die Wahl des Herausgebers

Hinzufügen von Flash-Audio- und Videodateien in Dreamweaver - Dummies

Hinzufügen von Flash-Audio- und Videodateien in Dreamweaver - Dummies

Adobe besitzt sowohl Flash als auch Dreamweaver Daher finden Sie großartige Unterstützung für Flash-Dateien in Dreamweaver. Das Dialogfeld "FLV einfügen" erleichtert das Festlegen von Parametern für Flash. Dreamweaver erkennt sogar automatisch die Größe von Flash-Videodateien. Sie können Flash auch zum Erstellen und Einfügen von Audiodateien verwenden, wobei nur der Player angezeigt wird.

Einstellen von Bildhelligkeit und -kontrast in Dreamweaver - Dummies

Einstellen von Bildhelligkeit und -kontrast in Dreamweaver - Dummies

Dreamweaver bietet Werkzeuge zum Erstellen von Bildern Einstellungen, einschließlich der Helligkeit und des Kontrastes. Durch die Anpassung der Bildhelligkeit können Sie die Gesamtlichtmenge in einem Bild ändern. Kontrast steuert den Unterschied zwischen hellen und dunklen Bereichen eines Bildes. Wenn Sie die Dreamweaver-Bearbeitungswerkzeuge verwenden, wird das Bild dauerhaft geändert, wenn die Seite ...

Hinzufügen von Bildern zu Ihrer Website in Dreamweaver - Dummies

Hinzufügen von Bildern zu Ihrer Website in Dreamweaver - Dummies

Wenn Sie Ihrer Website ein Bild hinzufügen, erscheint anfangs fast magisch, weil der Prozess mit Dreamweaver so einfach ist. Die Herausforderung bei Webgrafiken besteht darin, sie nicht zu Ihren Seiten hinzuzufügen, sondern gut aussehende Bilder zu erstellen, die schnell im Browser Ihres Viewers geladen werden. Sie benötigen ein anderes Programm wie Photoshop, Photoshop Elements oder Fireworks, um ...