Video: Hadoop Tutorial For Beginners | Hadoop Ecosystem Explained in 20 min! - Frank Kane 2024
Ein Teil von Hadoop For Dummies Cheat Sheet
Jeder Hadoop-Administrator, der es wert ist, muss einen umfassenden Satz von Befehlen für die Clusterverwaltung beherrschen. Die folgende Liste fasst die wichtigsten Befehle zusammen und gibt an, was der Befehl sowie die Syntax und die Beispiele tut. Kenne sie, und du wirst einen langen Weg auf dem Weg zur Hadoop-Weisheit zurücklegen.
-
balancer : Führt das Cluster-Balancing-Dienstprogramm aus. Der angegebene Schwellenwert, der einen Prozentsatz der Festplattenkapazität darstellt, wird zum Überschreiben des Standardschwellenwerts (10 Prozent) verwendet. Drücken Sie Strg + C, um den Neuausgleich zu beenden.
Syntax: hadoop balancer [-threshold]
Beispiel: hadoop balancer -threshold 20
-
daemonlog : Ermittelt oder setzt den Loglevel für jeden Dämon (auch als Dienst bezeichnet). Verbindet sich mit // host: port / logLevel? log = name und gibt die Protokollebene des Daemons aus, der auf host: port ausgeführt wird. Hadoop-Daemons generieren Protokolldateien, mit deren Hilfe Sie ermitteln können, was im System passiert. Mit dem Befehl daemonlog können Sie die Protokollierungsstufe einer Hadoop-Komponente beim Debuggen des Systems vorübergehend ändern. Die Änderung wird wirksam, wenn der Daemon neu gestartet wird.
Syntax: hadoop Dämonenlog -getlevel; hadoop daemonlog -setlevel
Beispiel: hadoop daemonlog -getlevel 10. 250. 1. 15: 50030 org. Apache. Hadoop. Kartenrot. JobTracker; hadoop daemonlog -setlevel 10. 250. 1. 15: 50030 org. Apache. Hadoop. Kartenrot. JobTracker DEBUG
-
datanode : Führt den HDFS-DataNode-Dienst aus, der den Speicher auf jedem Slave-Knoten koordiniert. Wenn Sie -rollback angeben, wird der DataNode auf die vorherige Version zurückgesetzt. Stoppen Sie den DataNode und verteilen Sie die vorherige Hadoop-Version, bevor Sie diese Option verwenden.
Syntax: hadoop datanode [-rollback]
Beispiel: hadoop datanode -rollback
-
dfsadmin : Führt eine Reihe von verteilten Hadoop-Dateien aus Systemverwaltungsoperationen (HDFS). Verwenden Sie die Option -help, um eine Liste aller unterstützten Optionen anzuzeigen. Die generischen Optionen sind ein gemeinsamer Satz von Optionen, die von mehreren Befehlen unterstützt werden.
Syntax: hadoop dfsadmin [GENERIC_OPTIONS] [-report] [-safemodus eintreten | verlassen | bekommen | warte] [-refreshNodes] [-finalizeUpgrade] [-upgradeProgress-Status | Details | force] [-metasave Dateiname] [-setQuota …] [-clrQuota …] [-restoreFailedStorage true | false | check] [-help [cmd]]
-
mradmin : Führt eine Reihe von MapReduce-Verwaltungsaufgaben aus. Operationen. Verwenden Sie die Option -help, um eine Liste aller unterstützten Optionen anzuzeigen.Auch hier sind die generischen Optionen ein gemeinsamer Satz von Optionen, die von mehreren Befehlen unterstützt werden. Wenn Sie -refreshServiceAcl angeben, wird die Berechtigungsrichtliniendatei der Service-Ebene erneut geladen (JobTracker lädt die Autorisierungsrichtliniendatei neu). -refreshQueues lädt die Warteschlangen-Zugriffssteuerungslisten (ACLs) und den Status neu (JobTracker lädt die mapred-queue. xml-Datei neu); -refreshNodes aktualisiert die Host-Informationen im JobTracker; -refreshUserToGroupsMappings aktualisiert Benutzer-zu-Gruppen-Zuordnungen; -refreshSuperUserGroupsConfiguration aktualisiert Superuser-Proxy-Gruppen-Mappings. und -help [cmd] zeigt die Hilfe für den angegebenen Befehl oder für alle Befehle an, wenn keine angegeben ist.
Syntax: hadoop mradmin [GENERIC_OPTIONS] [-refreshServiceAcl] [-refreshQueues] [-refreshNodes] [-refreshUserToGroupsMappings] [-refreshSuperUserGroupsConfiguration] [-help [cmd]]
Beispiel: hadoop mradmin -help -refreshNodes
-
jobtracker : Führt den MapReduce JobTracker-Knoten aus, der das Datenverarbeitungssystem für Hadoop koordiniert. Wenn Sie -dumpConfiguration angeben, werden die vom JobTracker verwendete Konfiguration und die Warteschlangenkonfiguration im JSON-Format in die Standardausgabe geschrieben.
Syntax: hadoop jobtracker [-dumpConfiguration]
Beispiel: hadoop jobtracker -dumpConfiguration
-
namenode : Führt den NameNode aus, der das Speicher für den gesamten Hadoop-Cluster. Wenn Sie -format angeben, wird der NameNode gestartet, formatiert und dann gestoppt. Bei -upgrade startet der NameNode mit der Upgrade-Option, nachdem eine neue Hadoop-Version verteilt wurde. Bei -rollback wird der NameNode auf die vorherige Version zurückgesetzt (vergessen Sie nicht, den Cluster anzuhalten und die vorherige Hadoop-Version zu verteilen, bevor Sie diese Option verwenden). Mit -finalize wird der vorherige Zustand des Dateisystems entfernt, das neueste Upgrade wird permanent, Rollback ist nicht mehr verfügbar und der NameNode wird beendet. Schließlich wird mit -importCheckpoint ein Bild aus dem Checkpoint-Verzeichnis (wie durch die Eigenschaft fs. checkpoint. dir angegeben) geladen und im aktuellen Verzeichnis gespeichert.
Syntax: hadoop namenode [-format] | [-upgrade] | [-zurück] | [-finalisieren] | [-importCheckpoint]
Beispiel: hadoop namenode -finalize
-
Sekundärer namenode : Führt den sekundären NameNode aus. Wenn Sie -checkpoint angeben, wird ein Prüfpunkt auf dem sekundären NameNode ausgeführt, wenn die Größe von EditLog (ein Transaktionsprotokoll, das jede Änderung an den Metadaten des Dateisystems aufzeichnet) größer oder gleich fs ist. Kontrollpunkt. Größe; Geben Sie -force und einen Prüfpunkt an, unabhängig von der EditLog-Größe. Geben Sie -geteditsize an, und die EditLog-Größe wird gedruckt.
Syntax: hadoop Sekundärnamenode [-checkpoint [Kraft]] | [-geteditsize]
Beispiel: hadoop secondarynamenode -geteditsize
-
tasktracker : Führt einen MapReduce TaskTracker-Knoten aus.
Syntax: hadoop tasktracker
Beispiel: hadoop tasktracker