Video: How to Setup Multinode Hadoop 2 on CentOS/RHEL Using VirtualBox 2024
Da in vielen vorhandenen Hadoop-Bereitstellungen noch kein weiterer Ressourcenverhandler (YARN) verwendet wird, werfen Sie einen Blick darauf, wie Hadoop seine Datenverarbeitung vor den Tagen verwaltet hat. of Hadoop 2. Konzentrieren Sie sich auf die Rolle, die JobTracker-Masterdämonen und TaskTracker-Slave-Daemons bei der Verarbeitung von MapReduce-Prozessen spielen.
Der Zweck der Verwendung verteilter Systeme besteht darin, in der Lage zu sein, Rechenressourcen in einem Netzwerk von in sich abgeschlossenen Computern auf eine Weise bereitzustellen, die fehlertolerant, einfach und kostengünstig ist.
In einem verteilten System wie Hadoop, in dem ein Cluster von in sich abgeschlossenen Rechenknoten parallel arbeitet, ist eine große Komplexität erforderlich, um sicherzustellen, dass alle Teile zusammenarbeiten. Als solche haben diese Systeme typischerweise unterschiedliche Schichten, um verschiedene Aufgaben zu bewältigen, um eine parallele Datenverarbeitung zu unterstützen.
Dieses Konzept, bekannt als die Trennung von Bedenken, stellt sicher, dass, wenn Sie zum Beispiel der Anwendungsprogrammierer sind, Sie sich nicht um die spezifischen Details kümmern müssen, z. B. das Failover von Kartentasks. In Hadoop besteht das System aus diesen vier verschiedenen Schichten, wie gezeigt:
-
Verteilter Speicher: Das Hadoop Distributed File System (HDFS) ist die Speicherschicht, auf der die Daten, Zwischenergebnisse und Endergebnissätze gespeichert werden.
-
Ressourcenverwaltung: Zusätzlich zum Speicherplatz verfügen alle Slave-Knoten im Hadoop-Cluster über CPU-Zyklen, RAM und Netzwerkbandbreite. Ein System wie Hadoop muss in der Lage sein, diese Ressourcen zu parzellieren, damit mehrere Anwendungen und Benutzer den Cluster auf vorhersagbare und abstimmbare Weise gemeinsam nutzen können. Dieser Job wird vom JobTracker-Dämon ausgeführt.
-
Verarbeitungsframework: Der MapReduce-Prozessablauf definiert die Ausführung aller Anwendungen in Hadoop 1. Dies beginnt mit der Kartenphase; fährt fort mit Aggregation mit Shuffle, Sortieren oder Merge; und endet mit der Reduktionsphase. In Hadoop 1 wird dies ebenfalls vom JobTracker-Daemon verwaltet, wobei die lokale Ausführung von TaskTracker-Dämonen verwaltet wird, die auf den Slave-Knoten ausgeführt werden.
-
Anwendungsprogrammierschnittstelle (API): Für Hadoop 1 entwickelte Anwendungen müssen mit der MapReduce-API codiert werden. In Hadoop 1 bieten die Hive- und Pig-Projekte Programmierern einfachere Schnittstellen zum Schreiben von Hadoop-Anwendungen, und unter der Haube kompiliert sich ihr Code zu MapReduce.
In der Welt von Hadoop 1 (die einzige Welt bis vor kurzem) drehte sich die gesamte Datenverarbeitung um MapReduce.