Verwaltung von Big Data mit Hadoop: HDFS und MapReduce - Dummies

Video: Big Data für Controller mit Jedox und Hadoop 2025

Teil von Big Data für Dummies Cheat Sheet

Hadoop, ein Open-Source-Software-Framework, verwendet HDFS (das Hadoop Distributed File System) und MapReduce, um Big Data zu analysieren. Hardware, das heißt, in einer verteilten Rechnerumgebung.

Das Hadoop Distributed File System (HDFS) wurde entwickelt, um es Unternehmen zu ermöglichen, riesige Datenmengen einfacher und pragmatischer zu verwalten. Mit Hadoop können große Probleme in kleinere Elemente zerlegt werden, sodass die Analyse schnell und kostengünstig durchgeführt werden kann. HDFS ist ein vielseitiger, flexibler, geclusterter Ansatz zum Verwalten von Dateien in einer Big Data-Umgebung.

HDFS ist nicht das endgültige Ziel für Dateien. Vielmehr ist es ein Daten- "Dienst", der einen einzigartigen Satz von Fähigkeiten bietet, die benötigt werden, wenn Datenvolumen und Geschwindigkeit hoch sind.

MapReduce ist ein Software-Framework, mit dem Entwickler Programme schreiben können, die große Mengen unstrukturierter Daten parallel über eine verteilte Gruppe von Prozessoren verarbeiten können. MapReduce wurde von Google entwickelt, um im Batch-Modus eine Reihe von Funktionen effizient gegen eine große Datenmenge auszuführen.

Die Komponente "map" verteilt das Programmierproblem oder die Tasks auf eine große Anzahl von Systemen und übernimmt die Verteilung der Tasks so, dass die Last ausgeglichen und die Wiederherstellung nach Fehlern verwaltet wird. Nachdem die verteilte Berechnung abgeschlossen ist, aggregiert eine andere Funktion namens "reduzieren" alle Elemente wieder zusammen, um ein Ergebnis zu liefern. Ein Beispiel für die Verwendung von MapReduce wäre die Bestimmung, wie viele Seiten eines Buchs in jeweils 50 verschiedenen Sprachen geschrieben werden.