Video: SCRUM | Prinzipien von SCRUM 2024
Wenn es um Sqoop geht, ist ein Bild oft tausend wert Worte, also sehen Sie sich die Figur an, die Ihnen einen Überblick über die Sqoop-Architektur aus der Vogelperspektive gibt.
Die Idee hinter Sqoop ist, dass es map Tasks - Tasks, die den parallelen Import und Export von relationalen Datenbanktabellen ausführen - direkt aus dem Hadoop MapReduce Framework heraus nutzt. Das ist eine gute Nachricht, da das MapReduce-Framework eine Fehlertoleranz für Import- und Exportjobs bei paralleler Verarbeitung bietet.
Sie werden die Fehlertoleranz schätzen, wenn beim Import oder Export großer Tabellen ein Fehler auftritt, da das MapReduce-Framework wiederhergestellt wird, ohne dass Sie den Prozess erneut starten müssen.
Sqoop kann Daten in Hive und HBase importieren. Beachten Sie jedoch, dass die Pfeile zu Hive und HBase nur in eine Richtung zeigen. Daten, die in einer relationalen Datenbank mit JDBC-Unterstützung gespeichert sind, können mit Sqoop direkt in das Hive- oder HBase-System importiert werden. Exporte werden jedoch aus Daten ausgeführt, die in HDFS gespeichert sind.
Wenn Sie also Ihre Hive-Tabellen exportieren müssen, zeigen Sie Sqoop auf HDFS-Verzeichnisse an, in denen Ihre Hive-Tabellen gespeichert sind. Wenn Sie HBase-Tabellen exportieren müssen, müssen Sie diese zunächst in HDFS exportieren und anschließend den Sqoop-Exportbefehl ausführen.