Inhaltsverzeichnis:
Video: Wir haben zwei Dates! Sehen wir uns? / 14.6.18 / FRAU_SEIN 2024
Die meisten Datensätze enthalten eine Art von Metadaten, , die im Wesentlichen eine Beschreibung der Daten in der Datei. Metadaten enthalten normalerweise Beschreibungen der Formate, einige Angaben darüber, welche Werte sich in jedem Datenfeld befinden und was diese Werte bedeuten.
Wenn Sie mit einem neuen Datensatz konfrontiert werden, nehmen Sie die Metadaten niemals zum Nennwert. Die Natur von Big Data erfordert es, dass die Systeme, die es erzeugen, so weit wie möglich betrieben werden. Aus diesem Grund ist die Aktualisierung der Metadaten für diese Systeme bei der Implementierung von Änderungen nicht immer oberste Priorität. Sie müssen bestätigen, dass die Daten wirklich den Metadaten entsprechen.
Überprüfen Ihrer Quellen
So offensichtlich es auch klingen mag, es ist wichtig, dass Sie Vertrauen in die Herkunft Ihrer Daten haben. Dies ist besonders wichtig, wenn Sie Daten kaufen. Tausende von Anbietern bieten jede erdenkliche Art von Daten an. Und sie sind nicht alle von gleicher Glaubwürdigkeit.
Versuchen Sie vor dem Kauf von Daten genau zu verstehen, wo und wie der Anbieter sie sammelt. Geheimnisvoll und vage sind rote Fahnen.
Nehmen Sie keine Verkäufer beim Wort. Verlassen Sie sich nicht ausschließlich auf die Kundenzufriedenheits-Postings auf der Website oder auf Kundenreferenzen, die vom Anbieter bereitgestellt werden. Versuchen Sie nach Möglichkeit, jemanden aufzuspüren, der die Daten verwendet oder verwendet hat.
Wenn Ihre Daten von internen Systemen stammen, ist es immer noch wichtig, die Quellen auszuwerten. Verschiedene Systeme haben unterschiedliche Zwecke und konzentrieren sich daher auf unterschiedliche Daten. Sie können auch Daten zu unterschiedlichen Zeiten sammeln.
Zum Beispiel ist es nicht unüblich, dass einige Hotelketten Reservierungen in einem separaten System buchen, das sie an der Rezeption benutzen, wenn der Gast eincheckt. Es ist möglich, dass der Gast ein vergünstigtes Angebot zwischen Buchung und Check-in. Dies bedeutet, dass die Zimmerrate im Reservierungssystem möglicherweise nicht mit der Rate im Empfangssystem übereinstimmt. Was mehr ist, kann die Reservierung storniert werden und nie an die Rezeption!
Angenommen, Sie führen eine Analyse der Hoteleinnahmen nach Stadt durch. Es ist ziemlich wichtig, dass Sie wissen, dass Ihre Zimmerpreisdaten vom Rezeptionssystem und nicht vom Reservierungssystem bezogen werden. Aber was ist, wenn Sie analysieren möchten, wie viele Reservierungen durch den Super Bowl-Werbespot Ihres Unternehmens generiert wurden? In diesem Fall möchten Sie Daten aus dem Reservierungssystem sehen.
Das Hotelbeispiel verdeutlicht, dass auch intrinsisch saubere Daten problematisch sein können. Selbst wenn Daten genau sind und genau das sind, was sie vorgeben, kann das Timing ein Problem darstellen.Daten ändern sich mit der Zeit.
Formate überprüfen
Wie bereits in diesem Kapitel erwähnt, ist eines der Dinge, die Ihre Metadaten für Sie bereitstellen, ein Hinweis darauf, wie die Daten formatiert sind. Mit formatiert, meinen wir, wie jedes einzelne Datenelement aussieht. Ist "Produktcode" ein Zeichen oder eine Ziffer? Ist "Startdatum" ein Datum oder ist es wirklich ein Datumsstempel?
Datentypen sind in der statistischen Analyse wichtig, da sie bestimmen, welche Statistiken und statistischen Verfahren auf welche Datenelemente angewendet werden können. Wenn Sie versuchen, den Durchschnittswert eines Zeichenfelds wie "Vorname" zu übernehmen, erhalten Sie jedes Mal eine Fehlermeldung.
Typischerweise ist dieser Typ von Metadaten ziemlich genau. Es wird im Allgemeinen vom System gespeichert, das die Daten enthält und automatisch generiert werden kann. Die Überprüfung der Formate ist im Allgemeinen recht einfach. Eine solche Verifizierung ist im Wesentlichen ein Nebenprodukt der Validierung von Datenbereichen, die im folgenden Abschnitt erörtert werden. Aber es gibt Fälle, wo es etwas schwieriger sein kann.
Wir haben schon öfter ein solches Szenario gesehen, als wir uns erinnern möchten. Es kommt manchmal vor, dass das Entwicklerteam bei der Erstkonfiguration eines Systems versucht, die Datenstrukturen etwas flexibler zu gestalten, um zukünftigen Verbesserungen Rechnung zu tragen. Manchmal fügen sie einfach ein paar leere (und breite) alphanumerische Datenspalten am Ende jedes Datensatzes hinzu. Diese Hilfssäulen werden anfangs für nichts genutzt.
Analysten werden immer auf der Seite stehen und nach mehr Daten fragen als nach weniger - häufig allen Daten statt Daten. Diese Tatsache, kombiniert mit der Notwendigkeit, die Daten schnell zu erhalten, führt manchmal zu einem -Datendump. Dieser Dump enthält im Allgemeinen die Hilfsspalten. In diesen Fällen sagen die Metadaten etwas wie "Felder 1-11" sind formatiert als "200 alphanumerische Zeichen. "
Solche Informationen sind praktisch nutzlos. Um ein Datenfeld wie dieses zu verstehen, müssen Sie sich die Hände schmutzig machen. Es gibt nicht viel, was Sie tun können, wenn Sie nicht durch ein paar Dutzend Datensätze blättern und versuchen, eine fundierte Vermutung darüber zu ziehen, was tatsächlich im Feld vor sich geht. In den meisten Fällen neigen diese Felder dazu, leer zu sein. Aber nicht immer. Die gute Nachricht ist, dass, wenn das Feld tatsächlich benutzt wird, man irgendwo einen Programmierer finden sollte, der weiß, wofür es benutzt wird.
Typecasting Ihrer Daten
Einer der wichtigsten Schritte bei der Durchführung einer statistischen Analyse besteht darin, sicherzustellen, dass Ihre Daten das sind, was sie vorgeben. Statistische Verfahren stürzen ausnahmslos ab, wenn Sie ihnen keine gültigen Informationen über Datenformate zur Verfügung stellen. Aber diese Verfahren sind weitgehend blind für Probleme mit der Gültigkeit der Daten.
Es ist nicht ausreichend zu verstehen, wie ein Datenfeld formatiert ist. Bevor Sie ein Dataset in ein statistisches Verfahren umwandeln, müssen Sie verstehen, welche Daten sich tatsächlich in jedem der von Ihnen verwendeten Felder befinden.
Die meisten Daten fallen in eine von vier Kategorien: nominal, ordinal, Intervall und Verhältnis.Der Datentyp bestimmt, welche Arten von Statistiken und statistischen Prozeduren auf bestimmte Datenfelder angewendet werden können. Sie können beispielsweise keinen Durchschnitt eines Felds wie "Nachname" verwenden.
Verwirrende Datentypen mit Datenformaten sind einfach (und viel zu häufig). Wenn Sie wissen, ob ein Datenfeld ein Zeichen, eine ganze Zahl oder ein kontinuierliches Datenfeld ist, erhalten Sie keine Informationen über den Datentyp.
Zeichenfelder werden manchmal als Platzhalter für Daten verwendet, die in zukünftigen Versionen eines Systems erfasst werden könnten. Es gibt nichts zu verhindern, dass ein solches Feld verwendet wird, um monetäre oder andere numerische Daten zu erfassen.
Der häufigste Datentypfehler setzt voraus, dass ein numerisches Feld, insbesondere ein ganzzahliges Feld, tatsächlich numerische Ordinalzahlen enthält. Es ist äußerst üblich, dass Unternehmen numerische Codes ( nominal -Daten) verwenden, um Produkte, Regionen, Geschäfte und verschiedene andere Einheiten darzustellen.
Airline-Flugcodes sind ein Beispiel. Volkszählungsregionen sind eine andere. Sogar Kreditkarten- und Sozialversicherungsnummern werden typischerweise als ganze Zahlen gespeichert. Aber alle diese Entitäten sind nur Identifikatoren. Sie sind nominal Variablen. Die durchschnittliche Kreditkartennummer im Portfolio einer Bank ist eine bedeutungslose Statistik.