Der Ursprung und das Design von Hadoop - Dummies

Video: Economy Views: Managing data for customer value 2025

Was genau ist das mit dem lustigen Namen - Hadoop? Im Kern ist Hadoop ein Framework zum Speichern von Daten auf großen Clustern von < commodity Hardware - alltägliche Computerhardware, die erschwinglich und leicht verfügbar ist - und Anwendungen für diese Daten ausführen Ein Cluster ist eine Gruppe miteinander verbundener Computer (bekannt als nodes ) das kann zusammen an dem gleichen Problem arbeiten.

Die Verwendung von Netzwerken mit erschwinglichen Rechenressourcen, um geschäftliche Einblicke zu erlangen, ist das wichtigste Wertversprechen von Hadoop.

Was diesen Namen angeht, Hadoop, suche dort keine große Bedeutung, es ist einfach der Name, den Doug Cutting's Sohn seinem ausgestopften Elefanten gab. (Doug Cutting ist natürlich der Mit-Schöpfer von Hadoop.) Der Name ist einzigartig und leicht zu merken - Eigenschaften, die es eine gute Wahl machten.

Hadoop besteht aus zwei Hauptkomponenten: einem verteilten Verarbeitungsframework MapReduce (das jetzt von einer Komponente namens YARN unterstützt wird) und ein verteiltes Dateisystem namens Hadoop Distributed File System (HDFS).

Eine Anwendung, die auf Hadoop ausgeführt wird, verteilt ihre Arbeit auf die Knoten (Maschinen) im Cluster, und HDFS speichert die Daten, die verarbeitet werden sollen. Ein Hadoop-Cluster kann Tausende von Maschinen umfassen, wobei HDFS Daten speichert und MapReduce-Jobs in der Nähe der Daten verarbeitet werden, wodurch die E / A-Kosten niedrig gehalten werden. MapReduce ist äußerst flexibel und ermöglicht die Entwicklung einer Vielzahl von Anwendungen.

Wie Sie vielleicht vermutet haben, ist ein Hadoop-Cluster eine Form von

Compute-Cluster, ein Typ von Cluster, der hauptsächlich für Rechenzwecke verwendet wird. In einem Rechencluster können viele Computer ( Rechenknoten ) Rechenarbeitslasten gemeinsam nutzen und eine sehr große Gesamtbandbreite im Cluster nutzen. Hadoop-Cluster bestehen in der Regel aus einigen

Master-Knoten, , die die Speicher- und Verarbeitungssysteme in Hadoop steuern, und vielen Slave-Knoten, , die alle Daten des Clusters speichern. die Daten werden verarbeitet.