Inhaltsverzeichnis:
Video: Wie vereinfacht SAS Viya das Datenmanagement? 2024
Unstrukturierte Daten sind Daten, die nicht einem bestimmten Format für Big Data folgen. Wenn 20 Prozent der für Unternehmen verfügbaren Daten strukturierte Daten sind, sind die anderen 80 Prozent unstrukturiert. Unstrukturierte Daten sind die meisten Daten, auf die Sie stoßen werden. Bis vor kurzem unterstützte die Technologie jedoch nicht wirklich viel damit, außer sie zu speichern oder manuell zu analysieren.
Quellen für unstrukturierte Big Data
Unstrukturierte Daten sind überall. Tatsächlich leben die meisten Menschen und Organisationen ihr Leben mit unstrukturierten Daten. Genau wie bei strukturierten Daten werden unstrukturierte Daten entweder maschinell generiert oder vom Menschen generiert.
Hier sind einige Beispiele für maschinell erzeugte unstrukturierte Daten:
-
Satellitenbilder: Dazu gehören Wetterdaten oder die Daten, die die Regierung in ihren Satellitenüberwachungsbildern erfasst. Denken Sie nur an Google Earth, und Sie bekommen ein Bild.
-
Wissenschaftliche Daten: Dazu gehören seismische Bilder, atmosphärische Daten und Hochenergiephysik.
-
Fotos und Videos: Dazu gehören Sicherheits-, Überwachungs- und Verkehrsvideos.
-
Radar- oder Sonardaten: Dazu gehören Fahrzeug-, meteorologische und ozeanographische seismische Profile.
Die folgende Liste zeigt einige Beispiele für vom Menschen erzeugte unstrukturierte Daten:
-
Text innerhalb Ihres Unternehmens: Denken Sie an den gesamten Text in Dokumenten, Protokollen, Umfrageergebnissen und E-Mails. Unternehmensinformationen machen heute tatsächlich einen großen Prozentsatz der Textinformationen in der Welt aus.
-
Social Media Daten: Diese Daten werden von den Social Media Plattformen wie YouTube, Facebook, Twitter, LinkedIn und Flickr generiert.
-
Mobile Daten: Dazu gehören Daten wie Textnachrichten und Standortinformationen.
-
Website-Inhalt: Dies kommt von jeder Website, die unstrukturierten Content wie YouTube, Flickr oder Instagram bereitstellt.
Und die Liste geht weiter.
Einige Leute glauben, dass der Begriff unstrukturierte Daten irreführend ist, da jedes Dokument seine eigene spezifische Struktur oder Formatierung enthalten kann, basierend auf der Software, die es erstellt hat. Was jedoch im Dokument intern ist, ist wirklich unstrukturiert.
Bei weitem sind unstrukturierte Daten der größte Teil der Datengleichung, und die Anwendungsfälle für unstrukturierte Daten nehmen schnell zu. Auf der Textseite allein kann die Textanalyse verwendet werden, um unstrukturierten Text zu analysieren und relevante Daten zu extrahieren und diese Daten in strukturierte Informationen umzuwandeln, die auf verschiedene Weise verwendet werden können.
Ein populärer Big-Data-Use-Fall ist zum Beispiel die Social-Media-Analyse zur Verwendung bei Kundengesprächen mit hohem Volumen. Darüber hinaus werden unstrukturierte Daten aus Call-Center-Notizen, E-Mails, schriftlichen Kommentaren in einer Umfrage und anderen Dokumenten analysiert, um das Kundenverhalten zu verstehen. Dies kann mit sozialen Medien aus mehreren Millionen Quellen kombiniert werden, um die Kundenerfahrung zu verstehen.
Die Rolle eines CMS im Big Data Management
Organisationen speichern einige unstrukturierte Daten in Datenbanken. Sie verwenden jedoch auch Enterprise Content Management Systeme (CMS), die den gesamten Lebenszyklus von Inhalten verwalten können. Dies kann Webinhalte, Dokumentinhalte und andere Formularmedien umfassen.
Laut der Vereinigung für Informations- und Bildmanagement (AIIM), einer gemeinnützigen Organisation, die Bildung, Forschung und Best Practices anbietet, umfasst Enterprise Content Management (ECM) die Strategien, Methoden und Tools zur Erfassung, Verwaltung, Inhalte und Dokumente zu organisatorischen Prozessen speichern, aufbewahren und bereitstellen. "Die in ECM enthaltenen Technologien umfassen Dokumentenverwaltung, Records Management, Imaging, Workflow Management, Web Content Management und Collaboration.
Eine ganze Branche ist mit der Verwaltung von Inhalten aufgewachsen, und viele Content-Management-Anbieter erweitern ihre Lösungen, um große Mengen unstrukturierter Daten zu verarbeiten. Es werden jedoch auch neue Technologien entwickelt, um unstrukturierte Daten und die Analyse unstrukturierter Daten zu unterstützen. Einige von diesen unterstützen sowohl strukturierte als auch unstrukturierte Daten. Einige unterstützen Echtzeit-Streams. Dazu gehören Technologien wie Hadoop, MapReduce und Streaming.
Systeme, die Inhalte in Form von Content-Management-Systemen speichern sollen, sind keine eigenständigen Lösungen mehr. Vielmehr sind sie wahrscheinlich Teil einer umfassenden Datenverwaltungslösung. Beispielsweise kann Ihre Organisation Twitter-Feeds überwachen, die dann programmgesteuert eine CMS-Suche auslösen können.
Jetzt erhält die Person, die den Tweet ausgelöst hat, eine Antwort zurück, die einen Ort bietet, an dem der Nutzer das Produkt finden kann, nach dem er oder sie suchen könnte. Der größte Vorteil ist, wenn diese Art von Interaktion in Echtzeit stattfinden kann. Es veranschaulicht auch den Wert der Nutzung von unstrukturierten, strukturierten Echtzeitdaten (Kundendaten über die Person, die getwittert hat) und semi-strukturierten Daten (der eigentliche Inhalt in den CMS-Daten).
Die Realität ist, dass Sie wahrscheinlich einen hybriden Ansatz verwenden werden, um Ihre Big Data-Probleme zu lösen. Beispielsweise ist es nicht sinnvoll, alle Nachrichteninhalte in Hadoop in Ihren Räumlichkeiten zu speichern, da dies die Verwaltung unstrukturierter Daten erleichtern soll.