Zuhause Persönliche Finanzen Grundlagen strukturierter und unstrukturierter Daten in Predictive Analysis - Dummies

Grundlagen strukturierter und unstrukturierter Daten in Predictive Analysis - Dummies

Video: Keynote: Big Data Management - wie Sie mit Daten Wert generieren 2025

Video: Keynote: Big Data Management - wie Sie mit Daten Wert generieren 2025
Anonim

Daten, die in Datenbanken, Dokumenten, E-Mails und anderen Datendateien für die vorausschauende Analyse enthalten sind, können entweder als strukturierte oder als unstrukturierte Daten kategorisiert werden. Strukturierte Daten sind gut organisiert, folgen einer konsistenten Reihenfolge, sind relativ leicht zu durchsuchen und abzufragen und können leicht von einer Person oder einem Computerprogramm abgerufen und verstanden werden.

Ein klassisches Beispiel für strukturierte Daten ist eine Excel-Tabelle mit beschrifteten Spalten. Solche strukturierten Daten sind konsistent. Spaltenüberschriften - normalerweise kurze, genaue Beschreibungen des Inhalts in jeder Spalte - sagen Ihnen genau, welche Art von Inhalt zu erwarten ist.

Strukturierte Daten werden normalerweise in gut definierten Schemata wie Datenbanken gespeichert. Es ist normalerweise tabellarisch, mit Spalten und Zeilen, die seine Attribute klar definieren.

Unstrukturierte -Daten sind dagegen eher frei, nicht tabellarisch, verstreut und nicht leicht abrufbar; solche Daten erfordern ein absichtliches Eingreifen, um sie zu verstehen. Verschiedene E-Mails, Dokumente, Webseiten und Dateien (ob Text, Audio und / oder Video) an verteilten Standorten sind Beispiele für unstrukturierte Daten.

Es ist schwer, den Inhalt unstrukturierter Daten zu kategorisieren. Es handelt sich meist um Text, es wird normalerweise in einem Sammelsurium von Freiform-Stilen erstellt, und es ist keine leichte Aufgabe, Attribute zu finden, die Sie zum Beschreiben oder Gruppieren verwenden können.

Der Inhalt von unstrukturierten Daten ist schwer zu bearbeiten oder programmtechnisch sinnvoll. Computerprogramme können keine Berichte über solche Daten analysieren oder generieren, einfach weil sie keine Struktur haben, keine zugrundeliegende dominante Eigenschaft haben und einzelne Datenelemente keine gemeinsame Grundlage haben.

Im Allgemeinen gibt es einen höheren Prozentsatz unstrukturierter Daten als strukturierte Daten in der Welt. Unstrukturierte Daten erfordern mehr Arbeit, um sie nützlich zu machen, damit sie mehr Aufmerksamkeit erhält - und daher tendenziell mehr Zeit in Anspruch nimmt.

Unterschätzen Sie nicht die Bedeutung strukturierter Daten und die Macht, die sie für Ihre Analyse mit sich bringt. Es ist viel effizienter, strukturierte Daten zu analysieren als unstrukturierte Daten zu analysieren. Unstrukturierte Daten können außerdem kostspielig sein, um für die Analyse vorab zu prozessieren, wenn Sie ein Vorhersageanalyseprojekt erstellen. Die Auswahl relevanter Daten, ihre Reinigung und nachfolgende Transformationen können langwierig und mühsam sein.

Die resultierenden neu organisierten Daten aus diesen notwendigen Vorverarbeitungsschritten können dann in einem Vorhersageanalysemodell verwendet werden. Die Großhandelsumwandlung von unstrukturierten Daten muss jedoch möglicherweise warten, bis Ihr Vorhersageanalysemodell in Betrieb ist.

Data Mining und Textanalyse sind zwei Ansätze, um Textdokumente zu strukturieren, ihre Inhalte zu verknüpfen, ihre Daten zu gruppieren und zusammenzufassen und Muster in diesen Daten aufzudecken. Beide Disziplinen bieten ein reiches Framework an Algorithmen und Techniken, um den über ein Meer von Dokumenten verstreuten Text abzubauen.

Es ist auch erwähnenswert, dass Suchmaschinenplattformen leicht verfügbare Tools zur Indizierung von Daten bereitstellen und diese durchsuchbar machen.

Vergleichen wir strukturierte und unstrukturierte Daten.

Merkmale Strukturiert Unstrukturiert
Assoziation Organisiert Gestreut und verstreut
Erscheinungsbild Formal definiert Freiform
Erreichbarkeit Einfach zu Zugriff und Abfrage Schwer zuzugreifen und abfragen
Verfügbarkeit Prozentual niedriger Prozentual höher
Analyse Effizient zu analysieren Zusätzliche Vorverarbeitung wird benötigt

Unstrukturierte Daten nicht vollständig Mangel Struktur - Sie müssen es nur herausfinden. Sogar der Text in digitalen Dateien ist noch mit einer Struktur versehen, die oft in den Metadaten auftaucht - zum Beispiel Dokumenttitel, Datumsangaben, an denen die Dateien zuletzt geändert wurden, und Namen ihrer Autoren.

Dasselbe gilt für E-Mails: Der Inhalt kann unstrukturiert sein, aber strukturierte Daten sind mit ihnen verbunden - zum Beispiel das Datum und die Uhrzeit, zu der sie gesendet wurden, die Namen ihrer Absender und Empfänger, unabhängig davon, ob sie Anhänge enthalten.

Die Trennlinie zwischen den beiden Datentypen ist nicht immer eindeutig. Im Allgemeinen können Sie immer einige Attribute von unstrukturierten Daten finden, die als strukturierte Daten betrachtet werden können. Ob diese Struktur den Inhalt dieser Daten widerspiegelt - oder bei der Datenanalyse nützlich ist - ist bestenfalls unklar.

Zu ​​diesem Zweck können strukturierte Daten unstrukturierte Daten enthalten. Beispielsweise können Benutzer in einem Webformular gebeten werden, Feedback zu einem Produkt zu geben, indem sie eine Antwort aus mehreren Optionen auswählen - aber auch mit einem Kommentarfeld versehen, in dem sie zusätzliches Feedback bereitstellen können.

Die Antworten aus mehreren Optionen sind strukturiert. Das Kommentarfeld ist wegen seiner freien Form unstrukturiert. Solche Fälle lassen sich am besten als eine Mischung aus strukturierten und unstrukturierten Daten verstehen. Die meisten Daten sind eine Kombination aus beiden.

Für ein erfolgreiches Predictive Analytics-Projekt müssen sowohl strukturierte als auch unstrukturierte Daten in einem logischen Format kombiniert werden, das analysiert werden kann.

Grundlagen strukturierter und unstrukturierter Daten in Predictive Analysis - Dummies

Die Wahl des Herausgebers

Wie man die Socialcast Mobile App benutzt - dummies

Wie man die Socialcast Mobile App benutzt - dummies

Sogar die stoischste Anwendung wie Microsoft Excel hat ein begleitendes Smartphone-App, natürlich hat Socialcast auch eine. Wenn es so wäre, wäre es nicht wirklich eine Ausrede zu sagen, dass Socialcast nicht sehr sozial wäre, wenn du es nicht mit in die große Welt außerhalb deiner Zelle mitnehmen könntest. Die mobile App ...

Wie man das App Verzeichnis von Yammer benutzt - dummies

Wie man das App Verzeichnis von Yammer benutzt - dummies

Sie haben vielleicht gehört: "Es gibt eine App dafür. "Nun, das ist der Fall bei Yammer, der als einzige Ressource für die Vernetzung am Arbeitsplatz funktioniert. Aber Yammer bietet Ihnen auch eine Menge Apps, mit denen Sie Ihr Arbeitsleben noch einfacher gestalten können. Es gibt zwei Möglichkeiten, auf das App-Verzeichnis zuzugreifen: Option ...

So ​​verwenden Sie die Yammer-Analysetools - Dummies

So ​​verwenden Sie die Yammer-Analysetools - Dummies

Yammer rühmt sich damit als "führendes soziales Unternehmensnetzwerk für Unternehmen" um die Arbeit intelligenter und schneller zu erledigen. "Woher weißt du, ob das wahr ist? Ein guter Weg, um zu sehen, wie es für Sie funktioniert, ist die Analyse von Yammer. Wie greifen Sie auf diese großartigen Tools zu? Es ist einfach. Log ...

Die Wahl des Herausgebers

Die Evolution von Distributed Computing für Big Data - Dummies

Die Evolution von Distributed Computing für Big Data - Dummies

Hinter allen wichtigen Trends des letzten Jahrzehnts, einschließlich Serviceorientierung, Cloud Computing, Virtualisierung und Big Data, ist eine grundlegende Technologie namens Distributed Computing. Einfach gesagt, ohne die Verteilung von Datenverarbeitung wäre keiner dieser Fortschritte möglich. Distributed Computing ist eine Technik, mit der einzelne Computer über geografische Gebiete hinweg miteinander vernetzt werden können, so als ob ...

Drei Anbieter mit Data Mining-Produkten - Dummies

Drei Anbieter mit Data Mining-Produkten - Dummies

Es gibt mehrere Anbieter, die Data-Mining-Produkte verkaufen, die Sie vielleicht in Betracht ziehen möchten. Verwenden Sie mit Ihrem Data Warehouse. Hier sind drei, die eine Überlegung wert sind. Microsoft Microsoft hat das serverseitige Data Mining mit Microsoft SQL Server 2005 eingeführt. Obwohl es nicht so ausgereift und ausgeklügelt wie SAS und SPSS ist, hat Microsoft im Laufe der Zeit seine Fähigkeit bewiesen ...

Grundlagen der Big-Data-Integration - Dummies

Grundlagen der Big-Data-Integration - Dummies

Die fundamentalen Elemente der Big-Data-Plattform verwalten Daten auf neue Weise verglichen mit der traditionellen relationalen Datenbank. Dies liegt daran, dass Skalierbarkeit und hohe Leistung erforderlich sind, um sowohl strukturierte als auch unstrukturierte Daten zu verwalten. Komponenten des Big-Data-Ökosystems von Hadoop bis NoSQL DB, MongoDB, Cassandra, ...

Die Wahl des Herausgebers

So ​​stellen Sie eine Verbindung zu Spotify Mobile her - Dummies

So ​​stellen Sie eine Verbindung zu Spotify Mobile her - Dummies

Die meisten modernen Smartphones sind Wi-Fi-fähig. In ein lokales Netzwerk können Sie Spotify-Tracks mithilfe von Wi-Fi auf Ihr Telefon streamen. Sie können Spotify Mobile zu Hause und über Wi-Fi-Netzwerke in Hotels und Cafés problemlos nutzen - Sie müssen nur sicherstellen, dass Sie angemeldet und verbunden sind. ...

Wie Spotify funktioniert - Dummies

Wie Spotify funktioniert - Dummies

Wie Spotify funktioniert, kann Auswirkungen auf den Festplattenspeicher Ihres Computers haben. Internetverbindung. Spotify funktioniert anders als viele andere Online-Musikdienste, weil es auf mehrere Arten angewiesen ist, um Ihnen reibungslos Musik ohne Verzögerungen zu liefern. In Computing-Sprechen, das Maß der Verzögerung zwischen Anfordern eines Songs und Hören es ...

So ​​erreichen Sie Spotify Support - Dummies

So ​​erreichen Sie Spotify Support - Dummies

Es kann vorkommen, dass Sie eine kleine Hilfe beim Navigieren und Verwenden von Spotify benötigen von deinen Spotify Freunden. Sie können jederzeit Support @ spotify per E-Mail senden. com mit Ihrer Frage oder melden Sie sich bei Twitter an und senden Sie einen Tweet an @spotify. Stellen Sie sicher, dass Sie alle Informationen einschließen, die dem Support-Team helfen könnten, einschließlich Ihres Benutzernamens, damit sie ...