Zuhause Persönliche Finanzen Verwendung von MapReduce für Big Data - Dummies

Verwendung von MapReduce für Big Data - Dummies

Inhaltsverzeichnis:

Video: Big Data & Smart Data: Definition, Beispiel und praktischer Nutzen für Unternehmen 2025

Video: Big Data & Smart Data: Definition, Beispiel und praktischer Nutzen für Unternehmen 2025
Anonim

MapReduce ist ein Software-Framework, das sich ideal für Big Data eignet, da es Entwicklern ermöglicht, Programme zu schreiben, die große Mengen an unstrukturierten Daten parallel über eine verteilte Gruppe von Prozessoren verarbeiten können.

Die Kartenfunktion für Big Data

Die Funktion map ist seit Jahren Bestandteil vieler funktionaler Programmiersprachen. Karte wurde als Kerntechnologie für die Verarbeitung von Listen von Datenelementen neu belebt.

Operatoren in funktionalen Sprachen verändern die Struktur der Daten nicht; Sie erzeugen neue Datenstrukturen als ihre Ausgabe. Die ursprünglichen Daten selbst sind ebenfalls unverändert. So können Sie die Kartenfunktion ungestraft nutzen, da Ihre wertvollen gespeicherten Daten nicht beschädigt werden.

Ein weiterer Vorteil der funktionalen Programmierung besteht darin, dass die Bewegung oder der Fluss der Daten nicht ausdrücklich verwaltet werden muss. Dies enthebt den Programmierer der expliziten Verwaltung der Datenausgabe und -platzierung. Schließlich ist die Reihenfolge der Operationen an den Daten nicht vorgeschrieben.

Ein Weg, um die Lösung zu erreichen, besteht darin, die Eingabedaten zu identifizieren und eine Liste zu erstellen:

mylist = ("alle Bezirke in den USA, die an den letzten allgemeinen Wahlen teilgenommen haben") > Legen Sie die Funktion howManyPeople mit der Kartenfunktion

an. Dies wählt nur die Kreise mit mehr als 50 000 Personen aus: map howManyPeople (mylist) = [howManyPeople "county 1"; howManyPeople "Grafschaft 2"; howManyPeople "Grafschaft 3"; howManyPeople "Grafschaft 4"; …]

Erstellen Sie nun eine neue Ausgabeliste aller Kreise mit Bevölkerungszahlen größer als 50 000:

(nein, Kreis 1; ja, Kreis 2; nein, Kreis 3; ja, Kreis 4;?, Kreis nnn)
Die Funktion wird ausgeführt, ohne Änderungen an der ursprünglichen Liste vorzunehmen. Außerdem können Sie sehen, dass jedes Element der Ausgabeliste einem entsprechenden Element der Eingabeliste zugeordnet ist, mit einem Ja oder Nein. Wenn der Landkreis die Anforderung von mehr als 50.000 Menschen erfüllt hat, identifiziert die Kartenfunktion es mit einem Ja. Wenn nicht, wird ein Nein angezeigt.

Hinzufügen der Reduktionsfunktion für große Daten

Wie die Kartenfunktion ist

reduce seit vielen Jahren ein Merkmal funktionaler Programmiersprachen. Die Reduzierfunktion nimmt die Ausgabe einer Abbildungsfunktion und "reduziert" die Liste auf beliebige Weise, die der Programmierer wünscht. Der erste Schritt, den die Reduktionsfunktion erfordert, besteht darin, einen Wert in einen so genannten

-Akkumulator , zu setzen, der einen Anfangswert enthält. Nach dem Speichern eines Startwerts im Akkumulator verarbeitet die Reduzierfunktion dann jedes Element der Liste und führt die Operation durch, die Sie über die Liste benötigen.

Am Ende der Liste gibt die Funktion reduce einen Wert zurück, der darauf basiert, welche Operation Sie in der Ausgabeliste durchführen wollten.

Angenommen, Sie müssen die Landkreise ermitteln, in denen die Mehrheit der Stimmen für den demokratischen Kandidaten war. Denken Sie daran, dass Ihre Kartenfunktion "howManyPeople" jedes Element der Eingabeliste betrachtet und eine Ausgabeliste der Bezirke mit mehr als 50.000 Personen (Ja) und der Bezirke mit weniger als 50.000 Personen (Nein) erstellt hat.

Nach dem Aufrufen der howManyPeople-Zuordnungsfunktion bleibt die folgende Liste übrig:

(Nein, Kreis 1; Ja, Kreis 2; Nein, Kreis 3; Ja, Kreis 4;?), Kreis nnn)

Dies ist jetzt die Eingabe für Ihre Reduzierfunktion. Hier ist, wie es aussieht:

countylist = (no, county 1; ja, county 2; nein, county 3; ja, county 4;?, County nnn) reduce isDemocrat (countylist)

Die reduzierten Funktionsprozesse Jedes Element der Liste und gibt eine Liste aller Landkreise mit einer Bevölkerung von mehr als 50 000, wo die Mehrheit der Demokraten wählte.

Die Big-Data-Map zusammenlegen und verkleinern

Manchmal ist es gerade genug, eine Output-Liste zu erstellen. Ebenso ist es manchmal ausreichend, Operationen an jedem Element einer Liste durchzuführen. Meistens möchten Sie große Mengen von Eingabedaten durchsuchen, bestimmte Elemente aus den Daten auswählen und dann aus den relevanten Datenelementen einen Wert berechnen.

Sie möchten diese Eingabeliste nicht ändern, damit Sie sie mit neuen Annahmen und neuen Daten unterschiedlich verwenden können.

Softwareentwickler entwerfen Anwendungen, die auf Algorithmen basieren. Ein

-Algorithmus ist nichts weiter als eine Reihe von Schritten, die im Dienste eines Gesamtziels stattfinden müssen. Es könnte ein wenig so aussehen: Beginnen Sie mit einer großen Zahl oder Daten oder Datensätzen.

  1. Durchlaufen Sie die Daten.

  2. Verwenden Sie die Kartenfunktion, um etwas Interessantes zu extrahieren und eine Ausgabeliste zu erstellen.

  3. Organisieren Sie die Ausgabeliste, um sie für die weitere Verarbeitung zu optimieren.

  4. Verwenden Sie die Funktion "Reduzieren", um eine Reihe von Ergebnissen zu berechnen.

  5. Erzeugt die endgültige Ausgabe.

  6. Programmierer können alle Arten von Anwendungen unter Verwendung dieses Ansatzes implementieren, aber die Beispiele bis zu diesem Punkt waren sehr einfach, so dass der tatsächliche Wert von MapReduce möglicherweise nicht offensichtlich ist. Was passiert, wenn Sie extrem große Eingabedaten haben? Können Sie den gleichen Algorithmus für Terabytes an Daten verwenden? Die gute Nachricht ist ja.

Alle Operationen scheinen unabhängig zu sein. Das ist, weil sie es sind. Die wahre Stärke von MapReduce ist die Fähigkeit zu teilen und zu erobern. Nimm ein sehr großes Problem und zerlege es in kleinere, überschaubare Brocken, bearbeite jeden einzelnen Brocken selbstständig und ziehe ihn dann am Ende zusammen. Außerdem ist die Zuordnungsfunktion kommutativ - mit anderen Worten spielt die Reihenfolge, in der eine Funktion ausgeführt wird, keine Rolle.

So kann MapReduce seine Arbeit auf verschiedenen Computern in einem Netzwerk ausführen. Es kann auch aus mehreren internen oder externen Datenquellen auswählen. MapReduce verfolgt seine Arbeit, indem es einen eindeutigen Schlüssel erstellt, um sicherzustellen, dass die gesamte Verarbeitung mit der Lösung desselben Problems zusammenhängt.Dieser Schlüssel wird auch verwendet, um alle Ausgaben am Ende aller verteilten Aufgaben zusammenzuziehen.

Verwendung von MapReduce für Big Data - Dummies

Die Wahl des Herausgebers

Web Marketing: Warum Suchmaschinen existieren - Dummies

Web Marketing: Warum Suchmaschinen existieren - Dummies

Wenn Sie verstehen, warum Suchmaschinen existieren, können sie für Sie in Ihrem Web-Marketing-Geschäft arbeiten. Also, hier ist eine kurze Lektion, warum Suchmaschinen existieren und wie Sie sie nutzen können, um Geld zu verdienen. Suchmaschinen liefern Relevanz. Relevanz bedeutet, dass Besucher auf Suchergebnisse klicken und zufrieden sind mit ...

Was sind Tür- und Informationsseiten? - dummies

Was sind Tür- und Informationsseiten? - dummies

Eine Doorway-Seite wird nur als Zugang von einer Suchmaschine zu Ihrer Website erstellt. Doorway-Seiten werden manchmal als Gateway-Seiten und Geisterseiten bezeichnet. Die Idee besteht darin, hoch optimierte Seiten zu erstellen, die von Suchmaschinen aufgenommen und indiziert werden und die mit etwas Glück gut ranken und somit den Traffic auf eine ...

Was ist eine Weiterleitung bei der Suchmaschinenoptimierung? - Dummies

Was ist eine Weiterleitung bei der Suchmaschinenoptimierung? - Dummies

Eine Weiterleitung ist das automatische Laden einer Seite ohne Benutzereingriff. Sie klicken auf einen Link, um eine Webseite in Ihren Browser zu laden, und innerhalb von Sekunden verschwindet die geladene Seite, und eine neue wird angezeigt. Designer erstellen häufig Seiten für Suchmaschinen - optimierte, schlüsselwortreiche Seiten -, die Besucher auf die ...

Die Wahl des Herausgebers

Behandeln Probleme mit dem Kundenservice über Social Media - Dummies

Behandeln Probleme mit dem Kundenservice über Social Media - Dummies

, Wenn Kunden wissen, dass sie direkt mit ein Geschäft in den sozialen Medien, können sie aus einer beliebigen Anzahl von Gründen mit ihnen in Verbindung treten. Aber sobald sie merken, dass ein Problem mit dem Kundenservice oder einer Produktfrage über einen einzigen Tweet oder Beitrag angesprochen werden kann, ist es wahrscheinlicher, dass sie mit dem Unternehmen Geschäfte machen.

Acht Möglichkeiten, Social Media Feedback zu erhalten - Dummies

Acht Möglichkeiten, Social Media Feedback zu erhalten - Dummies

Die heutige Technologie verändert die Art und Weise, wie wir Geschäfte machen blitzschnell. Auch der Social-Media-Handel bewegt sich blitzschnell, aber durch die Beobachtung von Erwähnungen und Fragen an die Community können Sie einen Eindruck davon bekommen, wie Ihr Markt über bevorstehende Veränderungen denkt. Auch andere Posts können Ihnen helfen, kritisches Feedback aus der Öffentlichkeit zusammenzustellen ...

Manage Social Media Commerce mit HootSuite - dummies

Manage Social Media Commerce mit HootSuite - dummies

HootSuite ist ein Social Media Management System zur Umsetzung von Outreach und Überwachung in sozialen Netzwerken über ein einziges webbasiertes Dashboard. Für Unternehmen wird HootSuite am häufigsten von Social-Media-Teams mit mehreren Agenten verwendet, aber auch viele Einzelanwender mögen es. Wenn Sie auf der Suche nach einer robusten Plattform sind, die alles an einem Ort hält, ...

Die Wahl des Herausgebers

Die 5 Kornsterne der Mittelmeer - Dummies

Die 5 Kornsterne der Mittelmeer - Dummies

Die Mittelmeerdiät ist in der Praxis des Habens begründet ein Vollkorn zu jeder Mahlzeit. Und nein, das bedeutet nicht, eine ganze Platte Vollkornspaghetti mit Fleischsauce zum Abendessen zu essen. Stattdessen machen die Menschen im Mittelmeerraum ihr Getreide zur Beilage oder schaffen durch die Zugabe von magerem Eiweiß mehr Gleichgewicht ...

Strebe nach Gesundheit mit 7 bis 10 Portionen Obst und Gemüse - Schnuller

Strebe nach Gesundheit mit 7 bis 10 Portionen Obst und Gemüse - Schnuller

Der Verzehr von sieben bis zehn Portionen Obst und Gemüse pro Tag, wie sie für die mediterrane Ernährung empfohlen werden, mag sehr viel erscheinen, aber es muss keine so große Herausforderung sein. Wenn Sie nicht die Früchte und das Gemüse lieben, die spezifisch mit der Mittelmeerdiät verbunden sind, ist das okay! Essen Sie jede Art von Obst oder Gemüse, die Sie ...

Die gesundheitlichen Vorteile von mediterranen Kräutern und Gewürzen - Dummies

Die gesundheitlichen Vorteile von mediterranen Kräutern und Gewürzen - Dummies

Sie haben vielleicht gedacht, dass der Oregano und Basilikum in Ihrer Spaghetti-Sauce lieferte nur einen deutlichen italienischen oder mediterranen Geschmack, aber diese kleinen Kräuter sind Pflanzen, was bedeutet, dass sie alle Arten von gesundheitlichen Vorteilen haben, die einen großen Einfluss auf Ihre allgemeine Gesundheit haben können. Einfache Gewürze wie Ingwer und Oregano enthalten Phytochemikalien, ...