Video: Skillbyte Podcast #3: Das Hadoop Ökosystem - Was leistet die bekannteste Big Data Platform? 2024
Hadoop ist mehr als MapReduce und HDFS (Hadoop Distributed File System): Es ist auch eine Familie verwandter Projekte (ein Ökosystem, wirklich) für verteiltes Rechnen und groß angelegte Datenverarbeitung. Die meisten (aber nicht alle) dieser Projekte werden von der Apache Software Foundation gehostet. Die Tabelle listet einige dieser Projekte auf.
Projektname | Beschreibung |
---|---|
Ambari | Ein integrierter Satz von Hadoop-Verwaltungstools zum
Installieren, Überwachen und Verwalten eines Hadoop-Clusters. Ebenfalls enthalten sind Werkzeuge zum Hinzufügen oder Entfernen von Slave-Knoten. |
Avro | Ein Framework für die effiziente Serialisierung (eine Art
Transformation) von Daten in ein kompaktes Binärformat |
Flume | Ein Datenflussdienst für die Bewegung großer Log-Volumen > Daten in Hadoop
HBase |
Eine verteilte Spalten-Datenbank, die HDFS für ihren | zugrunde liegenden Speicher verwendet. Mit HBase können Sie Daten in extrem großen Tabellen
mit variablen Spaltenstrukturen speichern. HCatalog |
Ein Dienst zum Bereitstellen einer relationalen Sicht der in | Hadoop gespeicherten Daten, einschließlich eines Standardansatzes für Tabellendaten
Hive |
Ein verteiltes Data Warehouse für Daten, die in HDFS gespeichert sind; | bietet außerdem eine Abfragesprache, die auf SQL
(HiveQL) Hue |
basiert. Eine Hadoop-Administrationsoberfläche mit praktischen GUI-Tools für | Durchsuchen von Dateien, Hive- und Pig-Abfragen und Entwicklung von Oozie < workflows
Mahout Eine Bibliothek von statistischen Algorithmen für maschinelles Lernen, die in MapReduce |
implementiert wurden und nativ auf Hadoop | Oozie
ausgeführt werden können. Ein Workflow-Management-Tool, das die > Verkettung von Hadoop-Anwendungen |
Pig | Eine Plattform für die Analyse sehr großer Datenmengen, die
auf HDFS laufen, und mit einer Infrastrukturschicht bestehend aus einem Compiler |
, der Sequenzen von MapReduce-Programmen und language layer | bestehend aus der Abfragesprache Pig Latin
Sqoop Ein Tool zum effizienten Verschieben großer Datenmengen zwischen relationalen Datenbanken und HDFS |
ZooKeeper | Eine einfache Schnittstelle zum zentralisierten Koordination von Diensten
(wie Benennung, Konfiguration und Synchronisation) von |
verteilten Anwendungen |
Das Hadoop-Ökosystem und seine kommerziellen Distributionen entwickeln sich ständig weiter, wobei ständig neue oder verbesserte Technologien und Werkzeuge entstehen. Die Abbildung zeigt die verschiedenen Hadoop-Ökosystemprojekte und ihre Beziehung zueinander: |