Big Data für Dummies Cheat Sheet - Dummies - Persönliche Finanzen 2025

Von Judith Hurwitz, Alan Nugent und Fern Halper, Marcia Kaufman

Unternehmen müssen einen praktischen Weg finden, mit Big Data umzugehen, um wettbewerbsfähig zu bleiben - um neue Wege zu finden, um wachsende Mengen zu erfassen und zu analysieren von Informationen über Kunden, Produkte und Dienstleistungen. Daten werden auf strukturierte und unstrukturierte Weise immer komplexer. Neue Datenquellen kommen von Maschinen wie Sensoren; soziale Geschäftsseiten; und Website-Interaktion, z. B. Click-Stream-Daten. Um diese sich ändernden Geschäftsanforderungen zu erfüllen, müssen die richtigen Informationen zur richtigen Zeit verfügbar sein.

Big Data definieren: Volumen, Geschwindigkeit und Vielfalt

Mit Big Data können Unternehmen große Mengen unterschiedlicher Daten in der richtigen Geschwindigkeit und zum richtigen Zeitpunkt speichern, verwalten und bearbeiten. Um die richtigen Einsichten zu erhalten, werden Big Data in der Regel nach drei Merkmalen aufgeschlüsselt:

Volume: Wie viele Daten
Velocity: Wie schnell Daten verarbeitet werden
Variety: Die verschiedenen Datentypen

Während es praktisch ist, Big Data in die drei Vs zu vereinfachen, kann es irreführend und zu einfach sein. Zum Beispiel können Sie eine relativ kleine Menge sehr unterschiedlicher, komplexer Daten verwalten oder Sie verarbeiten sehr viele sehr einfache Daten. Diese einfachen Daten können alle strukturiert oder alle unstrukturiert sein.

Noch wichtiger ist das vierte V, Wahrhaftigkeit. Wie genau sind diese Daten bei der Vorhersage des Geschäftswerts? Machen die Ergebnisse einer Big-Data-Analyse tatsächlich Sinn? Daten müssen auf der Grundlage von Genauigkeit und Kontext verifiziert werden können. Ein innovatives Unternehmen möchte vielleicht in der Lage sein, riesige Datenmengen in Echtzeit zu analysieren, um schnell den Wert dieses Kunden und das Potenzial zu bewerten, diesem Kunden zusätzliche Angebote zu unterbreiten. Es ist notwendig, die richtige Menge und Art von Daten zu identifizieren, die in Echtzeit analysiert werden können, um die Geschäftsergebnisse zu beeinflussen.

Big Data umfasst alle Arten von Daten, einschließlich strukturierter Daten und unstrukturierter Daten aus E-Mails, sozialen Medien, Text-Streams und so weiter. Diese Art der Datenverwaltung erfordert, dass Unternehmen sowohl strukturierte als auch unstrukturierte Daten nutzen.

Unstrukturierte Daten verstehen

Unstrukturierte Daten unterscheiden sich von strukturierten Daten dadurch, dass ihre Struktur nicht vorhersehbar ist. Beispiele für unstrukturierte Daten sind Dokumente, E-Mails, Blogs, digitale Bilder, Videos und Satellitenbilder. Es enthält auch einige Daten, die von Maschinen oder Sensoren erzeugt werden. In der Tat sind unstrukturierte Daten für die Mehrheit der Daten verantwortlich, die sowohl in Ihrem Unternehmen als auch außerhalb Ihres Unternehmens in privaten und öffentlichen Online-Quellen wie Twitter und Facebook gespeichert sind.

In der Vergangenheit konnten die meisten Unternehmen diese große Datenmenge weder erfassen noch speichern. Es war einfach zu teuer oder zu überwältigend. Selbst wenn Unternehmen in der Lage waren, die Daten zu erfassen, verfügten sie nicht über die Werkzeuge, um die Daten einfach zu analysieren und die Ergebnisse für Entscheidungen zu nutzen. Nur wenige Tools könnten diese riesigen Datenmengen sinnvoll erfassen. Die Werkzeuge, die existierten, waren komplex zu benutzen und brachten keine Ergebnisse in einem vernünftigen Zeitrahmen hervor.

Am Ende waren diejenigen, die wirklich zu dem enormen Aufwand bei der Analyse dieser Daten gehen wollten, gezwungen, mit Momentaufnahmen von Daten zu arbeiten. Dies hat den unerwünschten Effekt, wichtige Ereignisse zu verpassen, da sie nicht in einer bestimmten Momentaufnahme enthalten waren.

Ein Ansatz, der immer mehr geschätzt wird, um aus unstrukturierten Daten einen geschäftlichen Nutzen zu ziehen, ist Textanalyse, die Analyse unstrukturierter Texte, die Extraktion relevanter Informationen und die Umwandlung in strukturierte Informationen, die dann auf verschiedene Weise genutzt werden. Die Analyse- und Extraktionsprozesse nutzen Techniken, die aus der Computerlinguistik, der Statistik und anderen Informatikdisziplinen stammen.

Die Rolle traditioneller Betriebsdaten in der Big Data-Umgebung

Zu wissen, welche Daten gespeichert werden und wo sie gespeichert werden, sind wichtige Bausteine in Ihrer Big-Data-Implementierung. Es ist unwahrscheinlich, dass Sie RDBMS für den Kern der Implementierung verwenden, aber es ist sehr wahrscheinlich, dass Sie sich auf die in RDBMS gespeicherten Daten verlassen müssen, um für das Geschäft mit Big Data den höchsten Wert zu schaffen.

Die meisten großen und kleinen Unternehmen speichern ihre wichtigsten betrieblichen Informationen wahrscheinlich in relationalen Datenbankverwaltungssystemen (RDBMS), die auf einer oder mehreren Beziehungen aufbauen und durch Tabellen dargestellt werden. Diese Tabellen sind durch die Art der Speicherung der Daten definiert. Die Daten werden in Datenbankobjekten namens Tabellen gespeichert, die in Zeilen und Spalten organisiert sind. RDBMS folgen einem konsistenten Ansatz bei der Art und Weise, wie Daten gespeichert und abgerufen werden.

Um den größtmöglichen geschäftlichen Nutzen aus Ihrer Echtzeitanalyse unstrukturierter Daten zu ziehen, müssen Sie diese Daten im Kontext mit Ihren historischen Daten zu Kunden, Produkten, Transaktionen und Vorgängen verstehen. Mit anderen Worten: Sie müssen Ihre unstrukturierten Daten in Ihre traditionellen Betriebsdaten integrieren.

Grundlagen der Big-Data-Infrastruktur

Bei Big Data geht es um hohe Geschwindigkeit, große Volumina und eine große Datenvielfalt, sodass die physische Infrastruktur die Implementierung buchstäblich "umsetzen" wird. Die meisten Big-Data-Implementierungen müssen hoch verfügbar sein, daher müssen die Netzwerke, Server und der physische Speicher robust und redundant sein.

Ausfallsicherheit und Redundanz sind miteinander verknüpft. Eine Infrastruktur oder ein System ist resistent gegenüber Ausfällen oder Änderungen, wenn ausreichend redundante Ressourcen vorhanden sind, die bereit sind, in Aktion zu treten. Ausfallsicherheit hilft, einzelne Fehlerquellen in Ihrer Infrastruktur zu beseitigen. Wenn zum Beispiel nur eine Netzwerkverbindung zwischen Ihrem Unternehmen und dem Internet besteht, haben Sie keine Netzwerkredundanz und die Infrastruktur ist nicht widerstandsfähig in Bezug auf einen Netzwerkausfall.

In großen Rechenzentren mit Business-Continuity-Anforderungen ist die Redundanz größtenteils vorhanden und kann genutzt werden, um eine Big Data-Umgebung zu schaffen. Bei neuen Implementierungen sind die Entwickler dafür verantwortlich, die Bereitstellung basierend auf Kosten und Leistung auf die Anforderungen des Unternehmens abzustimmen.

Verwalten von Big Data mit Hadoop: HDFS und MapReduce

Hadoop, ein Open-Source-Software-Framework, verwendet HDFS (das Hadoop Distributed File System) und MapReduce, um Big Data auf Clustern von Standardhardware zu analysieren. verteilte Rechnerumgebung.

Das Hadoop Distributed File System (HDFS) wurde entwickelt, um es Unternehmen zu ermöglichen, riesige Datenmengen einfacher und pragmatischer zu verwalten. Mit Hadoop können große Probleme in kleinere Elemente zerlegt werden, sodass die Analyse schnell und kostengünstig durchgeführt werden kann. HDFS ist ein vielseitiger, flexibler, geclusterter Ansatz zum Verwalten von Dateien in einer Big Data-Umgebung.

HDFS ist nicht das endgültige Ziel für Dateien. Vielmehr ist es ein Daten- "Dienst", der einen einzigartigen Satz von Fähigkeiten bietet, die benötigt werden, wenn Datenvolumen und Geschwindigkeit hoch sind.

MapReduce ist ein Software-Framework, mit dem Entwickler Programme schreiben können, die große Mengen unstrukturierter Daten parallel über eine verteilte Gruppe von Prozessoren verarbeiten können. MapReduce wurde von Google entwickelt, um im Batch-Modus eine Reihe von Funktionen effizient gegen eine große Datenmenge auszuführen.

Die Komponente "map" verteilt das Programmierproblem oder die Tasks über eine große Anzahl von Systemen und übernimmt die Verteilung der Tasks so, dass die Last ausgeglichen und die Wiederherstellung nach Fehlern verwaltet wird. Nachdem die verteilte Berechnung abgeschlossen ist, aggregiert eine andere Funktion namens "reduzieren" alle Elemente wieder zusammen, um ein Ergebnis zu liefern. Ein Beispiel für die Verwendung von MapReduce wäre die Bestimmung, wie viele Seiten eines Buchs in jeweils 50 verschiedenen Sprachen geschrieben werden.

Den Grundstein für Ihre Big Data-Strategie legen

Unternehmen schwimmen in Big Data. Das Problem ist, dass sie oft nicht wissen, wie sie diese Daten pragmatisch nutzen können, um die Zukunft vorhersagen zu können, wichtige Geschäftsprozesse auszuführen oder einfach nur neue Erkenntnisse zu gewinnen. Das Ziel Ihrer Big-Data-Strategie und Ihres Plans sollte darin bestehen, einen pragmatischen Weg zu finden, um Daten für besser vorhersagbare Geschäftsergebnisse nutzbar zu machen.

Beginnen Sie Ihre Big-Data-Strategie, indem Sie einen Erkennungsprozess einleiten. Sie müssen wissen, welche Daten Sie bereits haben, wo sie sich befinden, wer sie besitzt und kontrolliert und wie sie derzeit verwendet werden. Welche Datenquellen von Drittanbietern benötigen beispielsweise Ihr Unternehmen? Dieser Prozess kann Ihnen viele Erkenntnisse liefern:

Sie können bestimmen, wie viele Datenquellen vorhanden sind und wie viele Überschneidungen vorhanden sind.
Sie können Lücken im Wissen über diese Datenquellen identifizieren.
Möglicherweise stellen Sie fest, dass Sie in einem Geschäftsbereich viele doppelte Daten und in einem anderen Bereich fast keine Daten haben.
Sie können feststellen, dass Sie auf Daten von Drittanbietern angewiesen sind, die nicht so genau sind, wie sie sein sollten.

Verbringen Sie die Zeit, die Sie für diesen Erkennungsprozess benötigen, da dies die Grundlage für Ihre Planung und Ausführung Ihrer Big-Data-Strategie bildet.