Video: Was ist Hadoop? 2024
Hadoop ist ein Open-Source-Datenverarbeitungstool, das von der Apache Software Foundation entwickelt wurde. Hadoop ist derzeit das beste Programm für die Handhabung großer Datenmengen und -datensorten, da es groß angelegte Berechnungen kostengünstiger und flexibler macht. Mit der Einführung von Hadoop wurde die Massendatenverarbeitung für deutlich mehr Menschen und mehr Organisationen eingeführt.
Hadoop bietet Ihnen eine großartige Lösung für die Verarbeitung, Verarbeitung und Gruppierung von Massenströmen strukturierter, semi-strukturierter und unstrukturierter Daten. Durch das Einrichten und Bereitstellen von Hadoop erhalten Sie eine relativ kostengünstige Möglichkeit, mit der Verwendung und Erfassung von Daten aus allen Daten Ihres Unternehmens zu beginnen, anstatt sich nur auf das Transaktionsdatenset zu verlassen, das Sie irgendwo in einem alten Data Warehouse sitzen.
Hadoop ist eines der beliebtesten Programme, die für große Rechenanforderungen zur Verfügung stehen. Hadoop bietet eine Map-and-Reduce-Schicht, die die Datenverarbeitungsanforderungen der meisten Big Data-Projekte bewältigen kann.
Manchmal werden die Daten zu groß und schnell, als dass sie von Hadoop verarbeitet werden könnten. In diesen Fällen wenden sich Organisationen stattdessen alternativen, stärker angepassten MapReduce-Bereitstellungen zu.
Hadoop verwendet Cluster von Standard-Hardware zum Speichern von Daten. Die Hardware in jedem Cluster ist verbunden, und diese Hardware besteht aus Commodity Servern - kostengünstige, leistungsschwache generische Server, die leistungsstarke Computing-Funktionen bieten, wenn sie parallel über einen gemeinsamen Cluster laufen. Diese Commodity-Server werden auch -Knoten genannt. Commoditized Computing senkt die Kosten für die Handhabung und Speicherung von Big Data drastisch.
Hadoop besteht aus den folgenden zwei Komponenten:
-
Ein verteiltes Verarbeitungsframework: Hadoop verwendet Hadoop MapReduce als sein verteiltes Verarbeitungsframework. Wiederum ist ein verteiltes Verarbeitungsframework ein leistungsfähiger Rahmen, in dem Verarbeitungsaufgaben über Cluster von Knoten verteilt sind, so dass große Datenmengen sehr schnell über das System als Ganzes verarbeitet werden können.
-
Ein verteiltes Dateisystem: Hadoop verwendet das Distributed File System (HDFS) von Hadoop als verteiltes Dateisystem.
Die Arbeitslasten von Anwendungen, die unter Hadoop ausgeführt werden, werden auf die Knoten des Hadoop-Clusters aufgeteilt, und die Ausgabe wird dann auf dem HDFS gespeichert. Der Hadoop-Cluster kann aus Tausenden von Knoten bestehen. Um die Kosten für E / A-Prozesse niedrig zu halten, werden Hadoop MapReduce-Jobs so nah wie möglich an den Daten ausgeführt.
Dies bedeutet, dass die Prozessoren für die reduzierten Tasks so genau wie möglich an die zu verarbeitenden abgehenden Kartentaskdaten positioniert werden. Dieses Design erleichtert die gemeinsame Nutzung von Rechenanforderungen bei der Verarbeitung großer Datenmengen.
Hadoop unterstützt auch die hierarchische Organisation. Einige seiner Knoten sind als Masterknoten klassifiziert und andere als Slaves kategorisiert. Der Master-Dienst, der als JobTracker , bekannt ist, dient zur Steuerung mehrerer Slave-Dienste. Slave-Dienste (auch TaskTrackers genannt) werden an jeden Knoten verteilt. Der JobTracker steuert die TaskTracker und weist ihnen Hadoop MapReduce-Aufgaben zu.
In einer neueren Version von Hadoop, bekannt als Hadoop 2, wurde ein Ressourcenmanager namens Hadoop YARN hinzugefügt. In Bezug auf MapReduce in Hadoop fungiert YARN als ein integriertes System, das Ressourcenmanagement- und Planungsfunktionen ausführt.
Hadoop verarbeitet Daten im Batch. Wenn Sie also mit Streaming-Daten in Echtzeit arbeiten, können Sie Hadoop nicht für Ihre Big Data-Probleme verwenden. Das heißt, es ist sehr nützlich für die Lösung vieler anderer Arten von Big Data-Problemen.