Zuhause Persönliche Finanzen Sieht Ihre Daten korrekt aus? - Dummies

Sieht Ihre Daten korrekt aus? - Dummies

Inhaltsverzeichnis:

Video: Wir haben zwei Dates! Sehen wir uns? / 14.6.18 / FRAU_SEIN 2024

Video: Wir haben zwei Dates! Sehen wir uns? / 14.6.18 / FRAU_SEIN 2024
Anonim

Die meisten Datensätze enthalten eine Art von Metadaten, , die im Wesentlichen eine Beschreibung der Daten in der Datei. Metadaten enthalten normalerweise Beschreibungen der Formate, einige Angaben darüber, welche Werte sich in jedem Datenfeld befinden und was diese Werte bedeuten.

Wenn Sie mit einem neuen Datensatz konfrontiert werden, nehmen Sie die Metadaten niemals zum Nennwert. Die Natur von Big Data erfordert es, dass die Systeme, die es erzeugen, so weit wie möglich betrieben werden. Aus diesem Grund ist die Aktualisierung der Metadaten für diese Systeme bei der Implementierung von Änderungen nicht immer oberste Priorität. Sie müssen bestätigen, dass die Daten wirklich den Metadaten entsprechen.

Überprüfen Ihrer Quellen

So offensichtlich es auch klingen mag, es ist wichtig, dass Sie Vertrauen in die Herkunft Ihrer Daten haben. Dies ist besonders wichtig, wenn Sie Daten kaufen. Tausende von Anbietern bieten jede erdenkliche Art von Daten an. Und sie sind nicht alle von gleicher Glaubwürdigkeit.

Versuchen Sie vor dem Kauf von Daten genau zu verstehen, wo und wie der Anbieter sie sammelt. Geheimnisvoll und vage sind rote Fahnen.

Nehmen Sie keine Verkäufer beim Wort. Verlassen Sie sich nicht ausschließlich auf die Kundenzufriedenheits-Postings auf der Website oder auf Kundenreferenzen, die vom Anbieter bereitgestellt werden. Versuchen Sie nach Möglichkeit, jemanden aufzuspüren, der die Daten verwendet oder verwendet hat.

Wenn Ihre Daten von internen Systemen stammen, ist es immer noch wichtig, die Quellen auszuwerten. Verschiedene Systeme haben unterschiedliche Zwecke und konzentrieren sich daher auf unterschiedliche Daten. Sie können auch Daten zu unterschiedlichen Zeiten sammeln.

Zum Beispiel ist es nicht unüblich, dass einige Hotelketten Reservierungen in einem separaten System buchen, das sie an der Rezeption benutzen, wenn der Gast eincheckt. Es ist möglich, dass der Gast ein vergünstigtes Angebot zwischen Buchung und Check-in. Dies bedeutet, dass die Zimmerrate im Reservierungssystem möglicherweise nicht mit der Rate im Empfangssystem übereinstimmt. Was mehr ist, kann die Reservierung storniert werden und nie an die Rezeption!

Angenommen, Sie führen eine Analyse der Hoteleinnahmen nach Stadt durch. Es ist ziemlich wichtig, dass Sie wissen, dass Ihre Zimmerpreisdaten vom Rezeptionssystem und nicht vom Reservierungssystem bezogen werden. Aber was ist, wenn Sie analysieren möchten, wie viele Reservierungen durch den Super Bowl-Werbespot Ihres Unternehmens generiert wurden? In diesem Fall möchten Sie Daten aus dem Reservierungssystem sehen.

Das Hotelbeispiel verdeutlicht, dass auch intrinsisch saubere Daten problematisch sein können. Selbst wenn Daten genau sind und genau das sind, was sie vorgeben, kann das Timing ein Problem darstellen.Daten ändern sich mit der Zeit.

Formate überprüfen

Wie bereits in diesem Kapitel erwähnt, ist eines der Dinge, die Ihre Metadaten für Sie bereitstellen, ein Hinweis darauf, wie die Daten formatiert sind. Mit formatiert, meinen wir, wie jedes einzelne Datenelement aussieht. Ist "Produktcode" ein Zeichen oder eine Ziffer? Ist "Startdatum" ein Datum oder ist es wirklich ein Datumsstempel?

Datentypen sind in der statistischen Analyse wichtig, da sie bestimmen, welche Statistiken und statistischen Verfahren auf welche Datenelemente angewendet werden können. Wenn Sie versuchen, den Durchschnittswert eines Zeichenfelds wie "Vorname" zu übernehmen, erhalten Sie jedes Mal eine Fehlermeldung.

Typischerweise ist dieser Typ von Metadaten ziemlich genau. Es wird im Allgemeinen vom System gespeichert, das die Daten enthält und automatisch generiert werden kann. Die Überprüfung der Formate ist im Allgemeinen recht einfach. Eine solche Verifizierung ist im Wesentlichen ein Nebenprodukt der Validierung von Datenbereichen, die im folgenden Abschnitt erörtert werden. Aber es gibt Fälle, wo es etwas schwieriger sein kann.

Wir haben schon öfter ein solches Szenario gesehen, als wir uns erinnern möchten. Es kommt manchmal vor, dass das Entwicklerteam bei der Erstkonfiguration eines Systems versucht, die Datenstrukturen etwas flexibler zu gestalten, um zukünftigen Verbesserungen Rechnung zu tragen. Manchmal fügen sie einfach ein paar leere (und breite) alphanumerische Datenspalten am Ende jedes Datensatzes hinzu. Diese Hilfssäulen werden anfangs für nichts genutzt.

Analysten werden immer auf der Seite stehen und nach mehr Daten fragen als nach weniger - häufig allen Daten statt Daten. Diese Tatsache, kombiniert mit der Notwendigkeit, die Daten schnell zu erhalten, führt manchmal zu einem -Datendump. Dieser Dump enthält im Allgemeinen die Hilfsspalten. In diesen Fällen sagen die Metadaten etwas wie "Felder 1-11" sind formatiert als "200 alphanumerische Zeichen. "

Solche Informationen sind praktisch nutzlos. Um ein Datenfeld wie dieses zu verstehen, müssen Sie sich die Hände schmutzig machen. Es gibt nicht viel, was Sie tun können, wenn Sie nicht durch ein paar Dutzend Datensätze blättern und versuchen, eine fundierte Vermutung darüber zu ziehen, was tatsächlich im Feld vor sich geht. In den meisten Fällen neigen diese Felder dazu, leer zu sein. Aber nicht immer. Die gute Nachricht ist, dass, wenn das Feld tatsächlich benutzt wird, man irgendwo einen Programmierer finden sollte, der weiß, wofür es benutzt wird.

Typecasting Ihrer Daten

Einer der wichtigsten Schritte bei der Durchführung einer statistischen Analyse besteht darin, sicherzustellen, dass Ihre Daten das sind, was sie vorgeben. Statistische Verfahren stürzen ausnahmslos ab, wenn Sie ihnen keine gültigen Informationen über Datenformate zur Verfügung stellen. Aber diese Verfahren sind weitgehend blind für Probleme mit der Gültigkeit der Daten.

Es ist nicht ausreichend zu verstehen, wie ein Datenfeld formatiert ist. Bevor Sie ein Dataset in ein statistisches Verfahren umwandeln, müssen Sie verstehen, welche Daten sich tatsächlich in jedem der von Ihnen verwendeten Felder befinden.

Die meisten Daten fallen in eine von vier Kategorien: nominal, ordinal, Intervall und Verhältnis.Der Datentyp bestimmt, welche Arten von Statistiken und statistischen Prozeduren auf bestimmte Datenfelder angewendet werden können. Sie können beispielsweise keinen Durchschnitt eines Felds wie "Nachname" verwenden.

Verwirrende Datentypen mit Datenformaten sind einfach (und viel zu häufig). Wenn Sie wissen, ob ein Datenfeld ein Zeichen, eine ganze Zahl oder ein kontinuierliches Datenfeld ist, erhalten Sie keine Informationen über den Datentyp.

Zeichenfelder werden manchmal als Platzhalter für Daten verwendet, die in zukünftigen Versionen eines Systems erfasst werden könnten. Es gibt nichts zu verhindern, dass ein solches Feld verwendet wird, um monetäre oder andere numerische Daten zu erfassen.

Der häufigste Datentypfehler setzt voraus, dass ein numerisches Feld, insbesondere ein ganzzahliges Feld, tatsächlich numerische Ordinalzahlen enthält. Es ist äußerst üblich, dass Unternehmen numerische Codes ( nominal -Daten) verwenden, um Produkte, Regionen, Geschäfte und verschiedene andere Einheiten darzustellen.

Airline-Flugcodes sind ein Beispiel. Volkszählungsregionen sind eine andere. Sogar Kreditkarten- und Sozialversicherungsnummern werden typischerweise als ganze Zahlen gespeichert. Aber alle diese Entitäten sind nur Identifikatoren. Sie sind nominal Variablen. Die durchschnittliche Kreditkartennummer im Portfolio einer Bank ist eine bedeutungslose Statistik.

Sieht Ihre Daten korrekt aus? - Dummies

Die Wahl des Herausgebers

Netzwerkgrundlagen: IPv6-Adresse Vereinfachte Notation - Dummies

Netzwerkgrundlagen: IPv6-Adresse Vereinfachte Notation - Dummies

Bei der Arbeit mit IPv6-Adressen kann es viel Zeit in Anspruch nehmen. schreibe deine Adressen - immerhin sind sie 128 Bit lang. Um das Leben einfacher zu machen, gibt es einige Regeln, die Sie verwenden können, um diese Schreibweise zu verdichten: Führende Nullen in der Adresse sind optional. Für einen Adressblock wäre also 0A45 gleich A45, ...

Netzwerkgrundlagen: IP-Netzwerkklassen - Dummies

Netzwerkgrundlagen: IP-Netzwerkklassen - Dummies

Netzwerkadressierungsarchitektur unterteilt den Adressraum für Internet Protocol Version 4 (IPv4 ) in fünf Adressklassen. Jede Klasse, die in den ersten vier Bits der Adresse codiert ist, definiert entweder eine andere Netzwerkgröße, d.h. e. Anzahl der Hosts für Unicast-Adressen (Klassen A, B, C) oder Multicast-Netzwerk (Klasse D). Die fünfte Klasse (E) address ...

Netzwerkgrundlagen: Netzwerkport Übersicht - Dummys

Netzwerkgrundlagen: Netzwerkport Übersicht - Dummys

In TCP / IP- und UDP-Netzwerken ist ein Port ein Endpunkt eine logische Verbindung. Die Portnummer gibt an, um welchen Port es sich handelt. Port 80 wird beispielsweise für HTTP-Datenverkehr verwendet. Wenn Sie einen Befehl wie netstat -n unter Microsoft Windows oder Linux verwenden, sehen Sie eine Auflistung der lokalen Adressen ...

Die Wahl des Herausgebers

Excel-Dashboards: Wie Sie Ihr erstes Makro aufzeichnen - Dummies

Excel-Dashboards: Wie Sie Ihr erstes Makro aufzeichnen - Dummies

Wenn Sie ein Anfänger auf dem Dashboard sind Automatisierung in Excel ist es unwahrscheinlich, dass Sie den VBA-Code (Visual Basic für Applikationen) von Hand schreiben können, um Makros zu erstellen. Ohne vollständige Kenntnis des Objektmodells und der Syntax von Excel wäre das Schreiben des benötigten Codes für die meisten Anfänger unmöglich. Hier können Sie ein Makro aufzeichnen ...

Excel-Formelberechnungsmodi - Dummys

Excel-Formelberechnungsmodi - Dummys

Standardmäßig ist Excel so eingestellt, dass es automatisch neu berechnet wird. Wenn Sie eine der Zellen ändern, auf die in einer bestimmten Formel verwiesen wird, berechnet Excel diese Formel automatisch neu, sodass ein korrektes Ergebnis basierend auf den Änderungen in den Zellbezügen zurückgegeben wird. Wenn die Formel, die neu berechnet wird, auch als Zellenreferenz in anderen verwendet wird ...

Excel Formelfehler - Dummies

Excel Formelfehler - Dummies

Es ist nicht immer glatt, wenn Sie mit Excel-Formeln arbeiten. Manchmal gibt eine Formel einen Fehlerwert anstelle des erwarteten Werts zurück. Excel hilft Ihnen, das Problem zu identifizieren, indem Sie einen von sieben Fehlerwerten zurückgeben: # DIV / 0! , # N / A, #NAME? , #NULL! , #NUM! , #REF! und #WERT! , erklärt in der folgenden Liste: # DIV / 0! : ...

Die Wahl des Herausgebers

Teilen, Weiterverbreiten und Kommentieren von Google+ Posts - Dummies

Teilen, Weiterverbreiten und Kommentieren von Google+ Posts - Dummies

, Wenn Sie mit der Verwendung und Veröffentlichung beginnen Bei Google+ möchten Sie gelegentlich Links und Bilder teilen, die Beiträge anderer freigeben, ihre Beiträge kommentieren und andere in Ihren eigenen Google+ Beiträgen erwähnen. Vielleicht fragen Sie sich auch, wie Sie andere dazu bringen, Ihre eigenen Beiträge öfter zu kommentieren. Teilen von Links und Bildern in Google+ So geben Sie ein ...

Teilen Ihrer Google+ Posts mit bestimmten Personen - Dummies

Teilen Ihrer Google+ Posts mit bestimmten Personen - Dummies

Beiträge auf Google+ sind ganz einfach und können posten Text, Links, Fotos, Videos und sogar Ihren aktuellen Standort. Der schwierigste Teil des Beitrags auf Google+ besteht darin, auszuwählen, wen Sie Ihren Beitrag sehen möchten. Google+ verwendet Ihre Kreise, um festzulegen, wer Ihre Beiträge sehen kann. Kreise sind etwas einfacher als Listen, weil ...

Taggen von Personen in Google+ Fotos - Dummies

Taggen von Personen in Google+ Fotos - Dummies

Sie können Personen in Ihren Kreisen auf jedem Foto auf Google+ markieren. Wenn Sie eine Person in einem Foto taggen, wird diese Person über ihre Google+ Benachrichtigungen benachrichtigt. Sie können dann das Tag entfernen oder genehmigen, und das Foto wird mit dem Tag des Namens dieser Person darin angezeigt. Um jemanden zu markieren, ...