Video: The Most Connected Human in the World, Chris Dancy 2024
Organisieren von Datendiensten und -werkzeugen , Schicht 3 des Big-Data-Stacks, erfassen, validieren und verbinden verschiedene Big-Data-Elemente kontextuell relevant Sammlungen. Da Big Data massiv ist, haben sich Techniken entwickelt, um die Daten effizient und nahtlos zu verarbeiten. MapReduce ist eine stark genutzte Technik. Es genügt hier zu sagen, dass viele dieser organisierenden Datendienste MapReduce-Engines sind, die speziell zur Optimierung der Organisation großer Datenströme entwickelt wurden.
Die Organisation von Datendiensten ist in Wirklichkeit ein Ökosystem von Werkzeugen und Technologien, mit deren Hilfe Daten zur Vorbereitung auf die weitere Verarbeitung zusammengetragen und zusammengestellt werden können. Daher müssen die Tools Integration, Übersetzung, Normalisierung und Skalierung bieten. Zu den Technologien in dieser Schicht gehören die folgenden:
-
Ein verteiltes Dateisystem: Notwendig, um die Zerlegung von Datenströmen zu berücksichtigen und Skalierung und Speicherkapazität bereitzustellen
-
Serialisierungsdienste: Notwendig für persistente Datenspeicherung und mehrsprachige Remoteprozeduraufrufe (RPCs)
-
Koordinationsdienste: Notwendig für verteilte Anwendungen (Sperren usw.) > Tools zum Extrahieren, Transformieren und Laden (ETL):
-
Notwendig für das Laden und Konvertieren von strukturierten und unstrukturierten Daten in Hadoop Workflow-Services:
-
Notwendig für die Planung von Jobs und Bereitstellung einer Struktur für die Synchronisierung von Prozesselementen Schichten