Slave-Knoten- und Festplattenfehler in HDFS - Dummies

Video: The Nimitz Encounters 2025

Wie Tod und Steuern, Festplattenausfälle (und genug Zeit gegeben, sogar Knoten oder Rack-Ausfälle), sind unvermeidlich im verteilten Hadoop-Dateisystem (HDFS). In dem gezeigten Beispiel könnte der Cluster weiter funktionieren, selbst wenn ein Rack ausfallen sollte. Leistung würde leiden, weil Sie die Hälfte Ihrer Verarbeitungsressourcen verloren haben, aber das System ist immer noch online und alle Daten sind noch verfügbar.

In einem Szenario, in dem ein Plattenlaufwerk oder ein Slave-Knoten ausfällt, findet der zentrale Metadaten-Server für HDFS (der NameNode) schließlich heraus, dass die in der fehlgeschlagenen Ressource gespeicherten Dateiblöcke nicht mehr verfügbar sind. Wenn zum Beispiel der Slave-Knoten 3 ausfällt, würde dies bedeuten, dass die Blöcke A, C und D unterrediert sind.

Mit anderen Worten sind zu wenige Kopien dieser Blöcke in HDFS verfügbar. Wenn das HDFS feststellt, dass ein Block unterbelichtet ist, wird eine neue Kopie angefordert.

Um das Beispiel fortzusetzen, sagen Sie, dass Slave Node 3 nach einigen Stunden wieder online ist. Inzwischen hat HDFS sichergestellt, dass es drei Kopien aller Dateiblöcke gibt. Jetzt haben die Blöcke A, C und D vier Kopien pro Stück und sind überredigiert . Wie bei nicht überarbeiteten Blöcken wird auch der zentrale Metadatenserver von HDFS davon erfahren und eine Kopie jeder zu löschenden Datei bestellen.

Ein gutes Ergebnis der Datenverfügbarkeit ist, dass bei einem Festplattenausfall die ausgefallenen Festplatten nicht sofort ersetzt werden müssen. Dies kann effektiver in regelmäßigen Abständen erfolgen.