Inhaltsverzeichnis:
Video: Adjazenzmatrix und Adjazenzliste 2024
Edge-Knoten sind die Schnittstelle zwischen dem Hadoop-Cluster und dem externen Netzwerk. Aus diesem Grund werden sie manchmal als Gateway -Knoten bezeichnet. Am häufigsten werden Edge-Knoten zum Ausführen von Clientanwendungen und Clusterverwaltungstools verwendet.
Sie werden oft auch als Staging-Bereiche für Daten verwendet, die in den Hadoop-Cluster übertragen werden. So laufen Oozie, Pig, Sqoop und Management-Tools wie Hue und Ambari gut. Die Abbildung zeigt die Prozesse, die Sie auf Edge-Knoten ausführen können.
Edge-Knoten werden in Hadoop-Hardware-Architekturdiskussionen oft übersehen. Diese Situation ist bedauerlich, da Kantenknoten in einem Hadoop-Cluster einen wichtigen Zweck erfüllen und Hardwarevoraussetzungen haben, die sich von Masterknoten und Slaveknoten unterscheiden.
Im Allgemeinen ist es eine gute Idee, die Bereitstellung von Verwaltungstools auf Master-Knoten und Slave-Knoten zu minimieren, um sicherzustellen, dass kritische Hadoop-Dienste wie der NameNode so wenig wie möglich mit Ressourcen konkurrieren.
Sie sollten es vermeiden, ein Datenübertragungsdienstprogramm wie Sqoop auf irgendetwas anderes als einen Randknoten zu platzieren, da die hohen Datentransfervolumina die Fähigkeit von Hadoop-Diensten auf demselben Knoten zur Kommunikation gefährden könnten. Die Nachrichten, die Hadoop-Dienste austauschen, sind ihr Lebenselixier, daher bedeutet hohe Latenz, dass der gesamte Knoten vom Cluster abgeschnitten werden kann.
Die Abbildung zeigt zwei Kantenknoten, aber für viele Hadoop-Cluster reicht ein einzelner Kantenknoten aus. Zusätzliche Randknoten werden am häufigsten benötigt, wenn das Volumen der Daten, die in den Cluster hinein oder aus ihm heraus übertragen werden, für einen einzelnen Server zu groß ist.
Empfohlener Speicher
Verwenden Sie für Edge-Knoten in einem Hadoop-Cluster Speicher der Unternehmensklasse. Verwenden Sie für Edge-Knoten, die sich auf Verwaltungstools und die Ausführung von Clientanwendungen konzentrieren, vier 900-GB-SAS-Laufwerke sowie einen RAID-HDD-Controller, der für RAID 1 + 0 konfiguriert ist.
Edge-Knoten, die auf das Einlesen von Daten ausgerichtet sind, benötigen offensichtlich viel mehr Speicherplatz, sodass Sie dem Edge-Knoten Laufwerke hinzufügen können. Verwenden Sie in diesem Fall LFF-SAS-Laufwerke, da wesentlich höhere Kapazitäten verfügbar sind als bei SAS-Laufwerken mit kleinerem Formfaktor.
Empfohlene Prozessoren
Ein Allzweck-Edge-Node würde von einer Prozessorkonfiguration bedient werden, die einer für Slave-Knoten verwendeten Prozessor-Konfiguration ähnelt - insbesondere einem Dual-Socket-Server mit Ivy-Bridge-Prozessoren zwischen 2 und 2,5 GHz.
Empfohlener Speicher
Für die meisten Workloads auf Edge-Knoten sind 48 GB RAM ausreichend.
Empfohlenes Netzwerk
Um die Kommunikation zwischen dem externen Netzwerk und dem Hadoop-Cluster zu ermöglichen, müssen Edge-Knoten in das private Subnetz des Hadoop-Clusters sowie in das Unternehmensnetzwerk eingebunden werden.
Ein mehrfach vernetzter Computer hat dedizierte Verbindungen zu mehreren Netzwerken. Dies ist ein praktisches Beispiel dafür, warum Randknoten perfekt für die Interaktion mit der Welt außerhalb des Hadoop-Clusters geeignet sind. Wenn Sie Ihren Hadoop-Cluster in einem eigenen privaten Subnetz aufbewahren, ist dies eine hervorragende Vorgehensweise. Daher dienen diese Randknoten als kontrolliertes Fenster innerhalb des Clusters.
Für Edge-Knoten, die zum Ausführen von Clientanwendungen oder Verwaltungstools dienen, werden zwei Paare von gebündelten 1GbE-Netzwerkverbindungen empfohlen: ein Paar zum Herstellen einer Verbindung mit dem Hadoop-Cluster und ein anderes Paar zum externen Netzwerk.
Edge-Knoten, die für hohe eingehende und ausgehende Datenübertragungsraten ausgelegt sind, benötigen zwei (oder mehr) Paare von 10GbE-Netzwerkverbindern: ein Paar für die Verbindung mit dem Hadoop-Cluster und ein anderes Paar für das externe Netzwerk oder bestimmte Datenaufnahmequellen.