Video: How to install Cloudera QuickStart VM on VMware 2024
Apache Oozie ist in jeder größeren Hadoop-Distribution enthalten, einschließlich Apache Bigtop. Installieren Sie in Ihrem Hadoop-Cluster den Oozie-Server auf einem Edge-Knoten, auf dem Sie auch andere Client-Anwendungen wie gezeigt mit den Daten des Clusters ausführen.
Edge-Knoten sind als Gateway für das externe Netzwerk zum Hadoop-Cluster konzipiert. Dies macht sie ideal für Datentransfertechnologien (zB Flume), aber auch für Clientanwendungen und andere Anwendungsinfrastrukturen wie Oozie. Oozie benötigt keinen dedizierten Server und kann problemlos mit anderen Diensten koexistieren, die ideal für Edge-Knoten wie Pig und Hive geeignet sind.
Nachdem Oozie bereitgestellt wurde, können Sie den Oozie-Server starten. Die Infrastruktur von Oozie ist im Verzeichnis $ OOZIE_HOME installiert. Von dort aus starten Sie den Oozie-Start. Befehl sh, um den Server zu starten. (Wie zu erwarten ist, müssen Sie den Server stoppen, indem Sie oozie-stop. Sh eingeben.) Sie können den Status Ihrer Oozie-Instanz testen, indem Sie den Befehl
oozie admin -status
ausführen. Nachdem Sie den Oozie-Server bereitgestellt und gestartet haben können Sie Ihre verschiedenen Workflow-, Koordinator- oder Bündelaufträge katalogisieren und ausführen. Bei der Arbeit mit Ihren Aufträgen speichert Oozie die Katalogdefinitionen - die Daten, die alle Oozie-Objekte (Workflow-, Koordinator- und Bündelaufträge) beschreiben - sowie deren Zustände in einer dedizierten Datenbank.
Standardmäßig ist Oozie so konfiguriert, dass die eingebettete Derby-Datenbank verwendet wird. Sie können jedoch auch MySQL, Oracle oder PostgreSQL verwenden.
Sie haben vier Optionen für die Interaktion mit dem Oozie-Server:
-
Die Java-API: Diese Option ist nützlich in Situationen, in denen Sie in Java-Anwendungen Ihren eigenen Zeitplanungscode haben und die Ausführung Ihres Oozie Workflows, Koordinatoren oder Bundles aus Ihrer Anwendung heraus.
-
Die REST-API: Diese Option funktioniert auch in solchen Fällen gut, in denen Sie Ihren eigenen Zeitplanungscode als Grundlage für Ihre Oozie-Workflows, -Koordinatoren oder -Pakete verwenden möchten oder wenn Sie Sie möchten eine eigene Schnittstelle erstellen oder eine vorhandene Schnittstelle für die Verwaltung des Oozie-Servers erweitern.
-
Command Line Interface (CLI): Es ist die traditionelle Linux-Befehlszeilenschnittstelle für Oozie.
-
Die Oozie Webkonsole: Okay, vielleicht können Sie hier nicht viel miteinander interagieren, aber die Oozie Web Console bietet Ihnen eine (schreibgeschützte) Sicht auf den Status des Oozie-Servers. nützlich zum Überwachen Ihrer Oozie-Jobs.
Hue, eine Hadoop-Verwaltungsschnittstelle, bietet ein weiteres Werkzeug für die Arbeit mit Oozie.Oozie-Workflows, -Koordinatoren und -Bündel werden alle mithilfe von XML definiert, was insbesondere bei komplexen Situationen mühsam zu bearbeiten ist. Hue stellt ein GUI-Designertool bereit, mit dem Workflows und andere Oozie-Objekte grafisch erstellt werden können.
Oozie enthält unter den Abdeckungen einen eingebetteten Tomcat-Webserver, der seine Eingabe und Ausgabe verwaltet.