Zuhause Persönliche Finanzen Hadoop MapReduce für Big Data - Dummies

Hadoop MapReduce für Big Data - Dummies

Inhaltsverzeichnis:

Video: Hadoop : XML Parsing with MapReduce | MapReduce Tutorial | Big Data Tutorial For Beginners | Edureka 2025

Video: Hadoop : XML Parsing with MapReduce | MapReduce Tutorial | Big Data Tutorial For Beginners | Edureka 2025
Anonim

Um die Fähigkeiten von Hadoop MapReduce zu verstehen, ist es wichtig, zwischen MapReduce (dem Algorithmus) und einem Implementierung von MapReduce. Hadoop MapReduce ist eine Implementierung des Algorithmus, der vom Apache Hadoop-Projekt entwickelt und gepflegt wird.

Es ist hilfreich, diese Implementierung als MapReduce-Engine zu betrachten, denn genau so funktioniert es. Sie liefern Input (Kraftstoff), die Engine wandelt die Eingabe schnell und effizient in Ausgabe um und Sie erhalten die Antworten, die Sie brauchen.

Hadoop MapReduce umfasst mehrere Phasen, von denen jede mit wichtigen Operationen ausgestattet ist, um das Ziel zu erreichen, Antworten auf Big Data zu erhalten. Der Prozess beginnt mit einer Benutzeranforderung zum Ausführen eines MapReduce-Programms und wird fortgesetzt, bis die Ergebnisse in das HDFS zurückgeschrieben werden.

HDFS und MapReduce führen ihre Arbeit an Knoten in einem Cluster aus, der auf Racks von Commodity-Servern gehostet wird. Um die Diskussion zu vereinfachen, zeigt das Diagramm nur zwei Knoten.

Big Data bereithalten

Wenn ein Client die Ausführung eines MapReduce-Programms anfordert, besteht der erste Schritt darin, die Eingabedatei mit den Rohdaten zu suchen und zu lesen. Das Dateiformat ist völlig willkürlich, aber die Daten müssen in etwas konvertiert werden, das das Programm verarbeiten kann. Dies ist die Funktion von InputFormat und RecordReader. InputFormat entscheidet, wie die Datei mit einer Funktion namens InputSplit in kleinere Teile zerlegt wird.

Anschließend weist er einen RecordReader zu, um die Rohdaten zur Verarbeitung durch die Karte umzuwandeln. Im Lieferumfang von Hadoop sind verschiedene RecordReader-Typen enthalten, die eine Vielzahl von Konvertierungsoptionen bieten. Diese Funktion ist eine der Möglichkeiten, mit der Hadoop die große Vielfalt an Datentypen verwaltet, die bei Big Data-Problemen auftreten.

Beginnen Sie mit der Big Data Map

Ihre Daten sind jetzt in einer für die Karte akzeptablen Form. Für jedes Eingabepaar wird eine bestimmte Instanz von map aufgerufen, um die Daten zu verarbeiten. Aber was macht es mit der verarbeiteten Ausgabe und wie kann man sie im Auge behalten?

Karte verfügt über zwei zusätzliche Funktionen, um die Fragen zu beantworten. Da Map und Reduce zusammenarbeiten müssen, um Ihre Daten zu verarbeiten, muss das Programm die Ausgabe von den unabhängigen Mapper sammeln und an die Reduzierer weiterleiten. Diese Aufgabe wird von einem OutputCollector ausgeführt. Eine Reporterfunktion stellt auch Informationen bereit, die von Kartenaufgaben gesammelt wurden, damit Sie wissen, wann oder ob die Kartenaufgaben abgeschlossen sind.

Diese Arbeit wird gleichzeitig auf mehreren Knoten im Hadoop-Cluster ausgeführt.Es kann Fälle geben, in denen die Ausgabe von bestimmten Zuordnungsprozessen akkumuliert werden muss, bevor die Reduzierer beginnen können. Oder einige der Zwischenergebnisse müssen möglicherweise vor der Reduktion verarbeitet werden.

Darüber hinaus befinden sich einige dieser Ausgaben möglicherweise auf einem Knoten, der sich von dem Knoten unterscheidet, auf dem die Reduzierer für diesen spezifischen Ausgang ausgeführt werden. Das Sammeln und Mischen von Zwischenergebnissen wird von einem Partitionierer und einer Sortierung durchgeführt. Die Zuordnungsaufgaben liefern die Ergebnisse an eine bestimmte Partition als Eingaben für die Reduzierungsaufgaben.

Nachdem alle Map-Tasks abgeschlossen sind, werden die Zwischenergebnisse in der Partition gesammelt und ein Shuffling durchgeführt, wobei die Ausgabe für eine optimale Verarbeitung durch reduce sortiert wird.

Reduzieren und kombinieren für große Daten

Für jedes Ausgangspaar wird reduce aufgerufen, um seine Aufgabe auszuführen. In ähnlicher Weise wie map erfasst reduce seine Ausgabe, während alle Aufgaben verarbeitet werden. Die Reduzierung kann erst beginnen, wenn die gesamte Zuordnung abgeschlossen ist. Die Ausgabe von reduce ist ebenfalls ein Schlüssel und ein Wert. Während dies notwendig ist, um seine Arbeit zu reduzieren, ist es möglicherweise nicht das effektivste Ausgabeformat für Ihre Anwendung.

Hadoop bietet eine OutputFormat-Funktion, die sehr ähnlich wie InputFormat funktioniert. OutputFormat übernimmt das Schlüssel / Wert-Paar und organisiert die Ausgabe zum Schreiben in HDFS. Die letzte Aufgabe besteht darin, die Daten tatsächlich in HDFS zu schreiben. Dies wird von RecordWriter durchgeführt, und es funktioniert ähnlich wie RecordReader, außer in umgekehrter Reihenfolge. Es nimmt die OutputFormat-Daten und schreibt sie in der für die Anforderungen des Programms erforderlichen Form in HDFS.

Die Koordination all dieser Aktivitäten wurde in früheren Versionen von Hadoop von einem Job Scheduler verwaltet. Dieser Planer war rudimentär, und als sich die Jobmischung änderte und wuchs, war klar, dass ein anderer Ansatz notwendig war. Der Hauptmangel im alten Scheduler war das Fehlen von Ressourcenmanagement. Die neueste Version von Hadoop verfügt über diese neue Funktion.

Hadoop MapReduce ist das Herzstück des Hadoop-Systems. Es bietet alle Funktionen, die Sie benötigen, um große Datenmengen in verwaltbare Blöcke aufzuteilen, die Daten parallel auf Ihrem verteilten Cluster zu verarbeiten und die Daten dann für den Benutzerverbrauch oder die zusätzliche Verarbeitung verfügbar zu machen. Und all dies funktioniert sehr widerstandsfähig und fehlertolerant. Das ist erst der Anfang.

Hadoop MapReduce für Big Data - Dummies

Die Wahl des Herausgebers

ÜBen Mathe-Fragen für die Praxis: Sequenzen - Dummies

ÜBen Mathe-Fragen für die Praxis: Sequenzen - Dummies

Wenn Sie eine Frage zur Praxis Core-Prüfung beantworten Wenn Sie eine arithmetische oder geometrische Sequenz lösen müssen, denken Sie daran: Es geht darum, regelmäßige Muster zu finden - und manchmal rückwärts zu arbeiten. In den folgenden Übungsfragen fängst du damit an, einen bestimmten Begriff in einer Folge zu finden (einfach: suche einfach nach dem Unterschied zwischen jedem ...

ÜBen Mathematische Fragen für die Praxis: Ähnliche und kongruente Formen - Dummies

ÜBen Mathematische Fragen für die Praxis: Ähnliche und kongruente Formen - Dummies

Auch wenn zwei Formen aussehen identisch, können sie nicht sein. Zum Beispiel können Sie bei der Praxis Core-Prüfung auf eine Frage stoßen, bei der zwei Formen gleich aussehen, aber es wird Ihnen gesagt, sie seien "ähnlich". " Was bedeutet das? Was ist, wenn sie als "kongruent" gekennzeichnet sind? Wenn Sie sich nicht sicher sind, sollten die folgenden Übungsfragen (und ihre Erklärungen) ...

ÜBen Mathematische Fragen für die Praxis: Vereinfachen eines algebraischen Ausdrucks - Dummys

ÜBen Mathematische Fragen für die Praxis: Vereinfachen eines algebraischen Ausdrucks - Dummys

Einige algebraische Ausdrücke auf der Praxis Core Prüfung kann einschüchternd aussehen, und Sie können sogar auf sie aufgeben und weitermachen. Wie Sie in den folgenden Übungsfragen sehen werden, können Sie jedoch einige einfache Techniken verwenden, wie das Faktorisieren und Kombinieren von ähnlichen Begriffen, um sie zu lösen. Übungsfragen Welche der folgenden ist die vereinfachte ...

Die Wahl des Herausgebers

Fotografieren im Sportmodus mit einer Canon EOS Rebel T3-Kamera - Dummies

Fotografieren im Sportmodus mit einer Canon EOS Rebel T3-Kamera - Dummies

Der Sportmodus der Canon Rebel T3 und T3i führt zu einer Reihe von Einstellungen, mit denen Sie sich bewegende Motive fotografieren können. Zunächst wählt die Kamera eine kurze Verschlusszeit aus, die zum Stoppen der Bewegung benötigt wird. "Farben, Schärfe und Kontrast sind alle im Sportmodus Standard, wobei keine der Anpassungen im Portrait ...

Aufnahme von Bildern im Nahaufnahmemodus mit einer Canon EOS Rebel T3-Kamera

Aufnahme von Bildern im Nahaufnahmemodus mit einer Canon EOS Rebel T3-Kamera

Der Nahaufnahme-Modus der Canon Rebel T3 und T3i ermöglicht es Ihnen nicht, näher am Motiv zu fokussieren als bei einigen Nicht-Spiegelreflexkameras. Die Nahfokussierungsfähigkeiten Ihrer Kamera hängen ganz von der Linse ab, die Sie verwenden. (In der Bedienungsanleitung Ihres Objektivs sollte die minimale Fokussierentfernung angegeben werden.) Auswahl des Nahaufnahmemodus ...

Fotografieren im Querformat mit einer Canon EOS Rebel T3-Kamera - Dummies

Fotografieren im Querformat mit einer Canon EOS Rebel T3-Kamera - Dummies

Der Landschaftsmodus der Canon Rebel T3 und T3i, der für die Aufnahme von Aussichtspunkten, Stadtskylinen und anderen großformatigen Motiven konzipiert wurde, erzeugt eine große Schärfentiefe. Infolgedessen erscheinen Objekte, die sich sowohl in der Nähe der Kamera als auch in einiger Entfernung befinden, scharf fokussiert. Wie im Hochformat-Modus erreicht der Querformat-Modus die größere Schärfentiefe durch Manipulieren von ...

Die Wahl des Herausgebers

Erstellen und Verwenden von Verknüpfungen im dynamischen GP-Navigationsbereich - Dummies

Erstellen und Verwenden von Verknüpfungen im dynamischen GP-Navigationsbereich - Dummies

Microsoft Dynamics GP-Verknüpfungen werden angezeigt. Der obere Teil des Navigationsfensters, wenn Sie Ihre Dynamics GP Homepage anzeigen. Verwenden Sie Verknüpfungen, um häufig verwendete Fenster und Ressourcen in Dynamics GP schnell zu öffnen. Zum Beispiel können Sie einen Satz von Verknüpfungen zu den Fenstern erstellen, die Sie regelmäßig verwenden, und einen anderen Satz für die ...

MYOB Software für Dummies-Spickzettel (Neuseeland-Ausgabe) - Dummies

MYOB Software für Dummies-Spickzettel (Neuseeland-Ausgabe) - Dummies

Sie können MYOB verwenden für Ihre Geschäftsanforderungen schnell und einfach durch diese einfachen Verknüpfungen. Wenn Sie zusätzliche Hilfe benötigen, bieten viele Websites MYOB-Unterstützung an.

MYOB Software für Dummies Cheat Sheet (Australische Ausgabe) - Dummies

MYOB Software für Dummies Cheat Sheet (Australische Ausgabe) - Dummies

Mit MYOB für Ihre Unternehmensanforderungen kann durch diese einfachen Abkürzungen noch schneller und einfacher gemacht werden. Und wenn Sie Hilfe benötigen, gibt es viele Websites, die Unterstützung anbieten.