Hadoop MapReduce für Big Data - Dummies
Um die Fähigkeiten von Hadoop MapReduce zu verstehen, ist es wichtig, zwischen MapReduce zu unterscheiden ( der Algorithmus) und eine Implementierung von MapReduce. Hadoop MapReduce ist eine Implementierung des Algorithmus, der vom Apache Hadoop-Projekt entwickelt und gepflegt wird. Es ist hilfreich, diese Implementierung als MapReduce-Engine zu betrachten, denn genau das ist es ...
Hadoop Rack Considerations - Dummies
Ein Kernprinzip von Hadoop ist die Skalierung mit zusätzlichen Slave-Knoten, um die zunehmende Datenspeicherung zu erfüllen. Verarbeitungsanforderungen. In einem Scale-Out-Modell müssen Sie das Cluster-Design sorgfältig berücksichtigen, da Dutzende und sogar Hunderte von Slave-Knoten letztendlich gestapelt, mit Strom versorgt, vernetzt und gekühlt werden müssen. Serverformfaktoren Eine der ersten Optionen ...
Hadoop Integration mit R - Dummies
Anfangs waren Big Data und R keine natürlichen Freunde. Die R-Programmierung erfordert, dass alle Objekte in den Hauptspeicher einer einzelnen Maschine geladen werden. Die Einschränkungen dieser Architektur werden schnell erkannt, wenn große Daten ein Teil der Gleichung werden. Im Gegensatz dazu fehlen verteilte Dateisysteme wie Hadoop stark ...
Wie man Apache Oozie erhält Einrichten in Hadoop - Dummies
Apache Oozie ist in jedem größeren Hadoop enthalten Distribution, einschließlich Apache Bigtop. Installieren Sie in Ihrem Hadoop-Cluster den Oozie-Server auf einem Edge-Knoten, auf dem Sie auch andere Client-Anwendungen wie gezeigt mit den Daten des Clusters ausführen. Edge-Knoten sind als Gateway für das externe Netzwerk zum Hadoop-Cluster konzipiert. Diese ...
Importieren von Daten mit Sqoop - Dummies
Zum Importieren von Daten mit Sqoop bereit? Beginnen Sie mit einem Blick auf die Abbildung, die die Schritte einer typischen Sqoop-Importoperation aus einem RDBMS- oder einem Data-Warehouse-System veranschaulicht. Nichts zu kompliziertes hier - nur eine typische Produktdatentabelle von einer (typischen) fiktiven Firma, die in eine typische ...
Eingabe Splits in Hadoops MapReduce - Dummies
Wie HDFS eingerichtet wurde, zerlegt es sehr große Dateien in große blockiert (z. B. 128 MB) und speichert drei Kopien dieser Blöcke auf verschiedenen Knoten im Cluster. HDFS hat keine Kenntnis vom Inhalt dieser Dateien. Wenn in YARN ein MapReduce-Job gestartet wird, wird der Ressourcen-Manager (der ...
Verbinden von Tabellen mit Hive - Dummies
Sie wissen wahrscheinlich bereits, dass Experten in relationalen Datenbankmodellen und Zeit Entwerfen normalisierter Datenbanken oder Schemata. Datenbank-Normalisierung ist eine Technik, die Datenverlust, Redundanz und andere Anomalien verhindert, wenn Daten aktualisiert und abgerufen werden. Die Experten befolgen eine Reihe von Regeln, um zu einer ...
Verwaltung von Big Data mit Hadoop: HDFS und MapReduce - Dummies
Hadoop, ein Open-Source-Software-Framework verwendet HDFS (das verteilte Dateisystem von Hadoop) und MapReduce, um Big Data auf Clustern von Standardhardware zu analysieren - das heißt in einer verteilten Computerumgebung. Das Hadoop Distributed File System (HDFS) wurde entwickelt, um es Unternehmen zu ermöglichen, riesige Datenmengen einfacher und pragmatischer zu verwalten. Hadoop ...
Schlüsselwertpaare im HBase-Datenmodell - Dummys
Das logische HBase-Datenmodell ist einfach und dennoch elegant. und es bietet einen natürlichen Datenspeicherungsmechanismus für alle Arten von Daten - insbesondere unstrukturierte Big Data Sets. Alle Teile des Datenmodells konvergieren zu einem Schlüssel / Wert-Paar. Erstens, in einer Welt, in der man den Zeilenschlüssel als ...
Netzwerke und Hadoop-Cluster - Dummies
Wie bei jedem verteilten System kann ein Netzwerk einen Hadoop-Cluster bilden oder unterbrechen: nicht "Geh billig. "Zwischen den Master-Knoten und den Slave-Knoten in einem Hadoop-Cluster, der für die Aufrechterhaltung des Clusters unentbehrlich ist, findet ein großes Chatter statt, daher werden Switches der Enterprise-Klasse unbedingt empfohlen. Für jedes Rack in Ihrem Cluster haben Sie ...
Protokolldatenanalyse mit Hadoop - Dummies
Protokollanalyse ist ein gängiger Anwendungsfall für ein erstes Hadoop-Projekt. In der Tat waren die ersten Anwendungen von Hadoop die großangelegte Analyse von Clickstream-Protokollen - Protokollen, die Daten über die Webseiten erfassen, die die Besucher besuchen und in welcher Reihenfolge sie sie besuchen. Alle Datenprotokolle, die von Ihrer IT-Infrastruktur generiert werden ...
Protokollieren von Daten mit Flume in HDFS - Dummys
Einige der Daten, die im verteilten Hadoop-Dateisystem landen ( HDFS) kann dort über Datenbankladevorgänge oder andere Arten von Batchprozessen landen, aber was ist, wenn Sie die Daten erfassen möchten, die in Datenströmen mit hohem Durchsatz wie Anwendungsprotokolldaten fließen? Apache-Flume ist die derzeitige Standardmethode für ...
Verfolgen von Datenblöcken mit NameNode in HDFS - Dummys
Der NameNode fungiert als Adressbuch für Hadoop Distributed File System (HDFS), weil es nicht nur weiß, welche Blöcke einzelne Dateien bilden, sondern auch, wo jeder dieser Blöcke und ihre Replikate gespeichert sind. Wenn ein Benutzer eine Datei in HDFS speichert, wird die Datei in Datenblöcke und drei Kopien von ...
Schwein Latein in Hadoops Schwein-Programmen - Dummies
Schwein Latein ist die Sprache für Schwein-Programme. Pig übersetzt das Pig Latin-Skript in MapReduce-Jobs, die innerhalb des Hadoop-Clusters ausgeführt werden können. Bei der Entwicklung von Pig Latin verfolgte das Entwicklerteam drei wichtige Designprinzipien: Keep it simple. Pig Latin bietet eine optimierte Methode für die Interaktion mit Java MapReduce. Es ist ein ...
NoSQL Data Stores im Vergleich zu Hadoop - Dummies
NoSQL-Datenspeicher, die ursprünglich den Begriff "Say Say to SQL" ( um eine Parallele aus einer Anti-Drogen-Werbekampagne in den 1980er Jahren), und sie waren eine Reaktion auf die empfundene Grenzen der (SQL-basierten) relationalen Datenbanken. Es ist nicht so, dass diese Leute SQL hassten, aber sie waren es leid, quadratische Stifte in runde Löcher zu zwingen, indem ...
Replizieren von Datenblöcken im verteilten Hadoop-Dateisystem - dummies
Das verteilte Dateisystem (HDFS) von hadoop entwickelt, um Daten auf preiswerte und unzuverlässige Hardware zu speichern. Preiswert hat einen attraktiven Reiz, aber es wirft Bedenken hinsichtlich der Zuverlässigkeit des Systems als Ganzes auf, insbesondere um die Hochverfügbarkeit der Daten sicherzustellen. Planen Sie voraus für die Katastrophe, die Köpfe hinter HDFS gemacht ...
Verwalten von Dateien mit den Hadoop-Dateisystembefehlen - Dummys
HDFS ist eine der beiden Hauptkomponenten des Hadoop-Rahmen; das andere ist das als MapReduce bekannte Computational Paradigma. Ein verteiltes Dateisystem ist ein Dateisystem, das den Speicher in einem vernetzten Maschinencluster verwaltet. HDFS speichert Daten in Blöcken, Einheiten, deren Standardgröße 64 MB beträgt. Dateien, die Sie in ...
R auf Hadoop und die R-Sprache - Dummies
Die Maschinelle Lerndisziplin hat einen reichen und umfangreichen Katalog von Techniken .. Mahout bringt eine Reihe statistischer Werkzeuge und Algorithmen mit in die Tabelle, aber es erfasst nur einen Bruchteil dieser Techniken und Algorithmen, da die Aufgabe, diese Modelle in ein MapReduce-Framework zu konvertieren, eine Herausforderung darstellt. Im Laufe der Zeit ist Mahout sicher ...
Row Schlüssel im HBase-Datenmodell - Dummies
HBase-Datenspeicher bestehen aus einer oder mehreren Tabellen, die durch Zeilentasten indiziert. Daten werden in Zeilen mit Spalten gespeichert und Zeilen können mehrere Versionen haben. Standardmäßig wird die Datenversionierung für Zeilen mit Zeitstempeln implementiert. Logische Ansicht der Kundenkontaktinformationen in HBase Row Schlüsselspaltenfamilie: {Column Qualifier: Version: Wert} 00001 CustomerName: ...
Regionen in HBase - Dummies
RegionServers sind eine Sache, aber man muss sich auch ansehen, wie einzelne Regionen funktionieren. In HBase ist eine Tabelle sowohl auf eine Anzahl von RegionServern verteilt als auch aus einzelnen Regionen zusammengesetzt. Wenn Tabellen aufgeteilt werden, werden die Teilungen zu Regionen. Regionen speichern eine Reihe von Schlüssel-Wert-Paaren und jedes ...
Maschinelles Lernen mit Mahout in Hadoop - Dummies
Maschinelles Lernen bezieht sich auf einen Zweig der künstlichen Intelligenz Computer, um ihre Analyse auf der Grundlage früherer Ereignisse zu verbessern. Diese Computersysteme nutzen historische Daten aus früheren Versuchen, eine Aufgabe zu lösen, um die Leistung zukünftiger Versuche mit ähnlichen Aufgaben zu verbessern. In Bezug auf erwartete Ergebnisse, maschinelles Lernen ...
Ausführen von Anwendungen vor Hadoop 2 - Dummies
, Da viele vorhandene Hadoop-Bereitstellungen noch keinen Yet Resource Negotiator verwenden ( (YARN), werfen Sie einen kurzen Blick darauf, wie Hadoop seine Datenverarbeitung vor den Tagen von Hadoop 2 verwaltet hat. Konzentrieren Sie sich auf die Rolle, die JobTracker-Masterdämonen und TaskTracker-Slave-Daemons bei der Verarbeitung von MapReduce-Verarbeitung spielen. Der ganze Sinn des Einsatzes verteilter Systeme ...
Risiko Modellierung mit Hadoop - Dummies
Risikomodellierung ist ein weiterer wichtiger Anwendungsfall, der von Hadoop aktiviert wird. Sie werden feststellen, dass es dem Anwendungsfall der Betrugserkennung entspricht, da es sich um eine modellbasierte Disziplin handelt. Je mehr Daten Sie haben und je mehr Sie die Punkte miteinander verbinden können, desto öfter werden Ihre Ergebnisse bessere Risiko-Vorhersagemodelle ergeben. Das allumfassende Wort ...
Masterknoten in Hadoop-Clustern - Dummys
Die Masterknoten in verteilten Hadoop-Clustern hosten die verschiedenen Speicher- und Verarbeitungsverwaltungsdienste. beschrieben in dieser Liste für den gesamten Hadoop-Cluster. Redundanz ist entscheidend, um einzelne Fehlerpunkte zu vermeiden, daher sehen Sie zwei Switches und drei Master-Knoten. NameNode: Verwaltet den HDFS-Speicher. Um eine hohe Verfügbarkeit zu gewährleisten, haben Sie beide aktive ...
Mit statistischen Modellen in Hadoops MapReduce - Dummies
Die gleichzeitige Ausführung statistischer Modelle ist eine anspruchsvolle Aufgabe. In dem traditionellen Paradigma für die parallele Programmierung wird der Speicherzugriff durch die Verwendung von Threads reguliert - Unterprozessen, die durch das Betriebssystem erzeugt werden, um einen einzelnen gemeinsam genutzten Speicher auf mehrere Prozessoren zu verteilen. Faktoren wie Race Conditions zwischen konkurrierenden Threads - wenn zwei oder ...
Planen und Koordinieren von Oozie-Workflows in Hadoop - Dummies
Nachdem Sie eine Reihe von Workflows erstellt haben, können Sie Verwenden Sie eine Reihe von Oozie-Koordinatorjobs, um zu planen, wann sie ausgeführt werden. Sie haben zwei Planungsoptionen für die Ausführung: eine bestimmte Zeit und die Verfügbarkeit von Daten in Verbindung mit einer bestimmten Zeit. Zeitbasierte Planung für Oozie-Koordinatorjobs Oozie-Koordinatorjobs können geplant werden ...
Scripting mit Pig Latin in Hadoop - Dummies
Hadoop ist ein reiches und sich schnell entwickelndes Ökosystem mit einer wachsenden Anzahl neuer Anwendungen. Anstatt zu versuchen, mit allen Anforderungen für neue Funktionen Schritt zu halten, ist Pig so konzipiert, dass es über benutzerdefinierte Funktionen, auch als UDFs bekannt, erweiterbar ist. UDFs können in einer Reihe von Programmiersprachen geschrieben werden, einschließlich Java, Python und ...
Slave-Knoten- und Festplattenfehler in HDFS - Dummies
Wie Tod und Steuern, Festplattenausfälle (und ausreichend Zeit , sogar Knoten- oder Rack-Fehler), sind im Hadoop Distributed File System (HDFS) unvermeidbar. In dem gezeigten Beispiel könnte der Cluster weiter funktionieren, selbst wenn ein Rack ausfallen sollte. Leistung würde leiden, weil Sie die Hälfte Ihrer Verarbeitungsressourcen verloren haben, aber das System ist immer noch online ...
Die Dimensionierung Ihres Hadoop-Clusters - Dummies
Die Dimensionierung eines Datenverarbeitungssystems ist sowohl eine Wissenschaft als auch eine Kunst. Mit Hadoop betrachten Sie die gleichen Informationen wie bei einer relationalen Datenbank. Am wichtigsten ist es, dass Sie wissen müssen, wie viele Daten Sie haben, die erwarteten Wachstumsraten schätzen und eine Aufbewahrungsrichtlinie festlegen (wie lange bis ...
Einrichten der Hadoop-Umgebung mit Apache Bigtop - Dummies
Wenn Sie mit VMs und Linux arbeiten können Sie Bigtop auf einer anderen VM als empfohlen installieren. Wenn Sie wirklich mutig sind und die Hardware haben, dann fahren Sie fort und versuchen Sie, Bigtop auf einem Cluster von Maschinen im vollständig verteilten Modus zu installieren! Schritt 1: Herunterladen einer VM Hadoop läuft auf allen gängigen Linux-Plattformen ...
Slave-Knoten in Hadoop-Clustern - Dummys
In einem Hadoop-Universum werden unter Slave-Knoten Hadoop-Daten gespeichert. die Verarbeitung findet statt. Die folgenden Dienste ermöglichen es Slave-Knoten, Daten zu speichern und zu verarbeiten: NodeManager: Koordiniert die Ressourcen für einen einzelnen Slave-Knoten und meldet diese an den Ressourcen-Manager zurück. ApplicationMaster: Verfolgt den Fortschritt aller Tasks, die auf ... ausgeführt werden.
Slave-Knoten im Hadoop Distributed File System (DFS) - Dummies
In einem Hadoop-Cluster Jeder Datenknoten (auch als Slave-Knoten bezeichnet) führt einen Hintergrundprozess namens DataNode aus. Dieser Hintergrundprozess (auch Daemon genannt) verfolgt die Datensegmente, die das System auf seinem Computer speichert. Es spricht regelmäßig mit dem Master-Server für HDFS (bekannt als NameNode) an ...
Die Bedeutung von SQL für Hadoop - Dummies
Es gibt zwingende Gründe dafür, dass SQL sich als robust erwiesen hat. Die IT-Branche verfügt über 40 Jahre Erfahrung mit SQL, seit sie Anfang der 1970er Jahre von IBM entwickelt wurde. Mit der zunehmenden Akzeptanz relationaler Datenbanken in den 1980er Jahren ist SQL für die meisten IT-Abteilungen mittlerweile zu einer Standardkompetenz geworden ...
Sqoop 2. 0 Vorschau - Dummies
Mit allem Erfolg rund um Sqoop 1. x nach seinem Abschluss aus dem Apache-Inkubator , Sqoop hat Schwung! Wie Sie vielleicht erwarten, ist Sqoop 2. 0 mit interessanten neuen Funktionen auf dem Weg. Sie können sehen, dass Sqoop 1. 99. 3 heruntergeladen werden kann, komplett mit Dokumentation. Sie fragen sich wahrscheinlich, wie viele 1. 99. x Releases sein werden ...
Sqoop Konnektoren und Treiber - Dummies
Sqoop-Konnektoren gehen im Allgemeinen Hand in Hand mit einem JDBC-Treiber. Sqoop bündelt die JDBC-Treiber nicht, da sie normalerweise proprietär und vom RDBMS- oder DW-Anbieter lizenziert sind. Es gibt also drei mögliche Szenarien für Sqoop, abhängig vom Typ des Datenverwaltungssystems (RDBMS, DW oder NoSQL), das Sie versuchen ...
Sqoop Exporte mit dem Update- und Update-Insert-Ansatz - Dummys
Mit Insert-Modus, von Sqoop exportierte Datensätze werden an das Ende der Zieltabelle angehängt. Sqoop bietet außerdem einen Aktualisierungsmodus, den Sie verwenden können, indem Sie das Befehlszeilenargument -update-key angeben. Diese Aktion bewirkt, dass Sqoop eine SQL UPDATE-Anweisung generiert, die im RDBMS oder Data Warehouse ausgeführt wird. Angenommen, Sie ...
SQuirreL als Hive Client mit dem JDBC Treiber - dummies
SQuirreL SQL ist ein Open Source Tool, das als ein Hive-Kunde. Sie können diesen universellen SQL-Client von der SourceForge-Website herunterladen. Es bietet eine Benutzeroberfläche für Hive und vereinfacht die Aufgaben der Abfrage großer Tabellen und der Analyse von Daten mit Apache Hive. Die Abbildung zeigt, wie die Hive-Architektur funktioniert, wenn ...
Soziale Sentimentanalyse mit Hadoop - Dummies
Soziale Sentimentanalyse ist wohl die am meisten überbewertete der Hadoop-Anwendungen. Es ist keine Überraschung, wenn man bedenkt, dass die Welt ständig verbunden ist und die derzeitige Ausdruckspopulation. Dieser Use Case nutzt Inhalte aus Foren, Blogs und anderen Social-Media-Ressourcen, um ein Gespür dafür zu entwickeln, was Menschen tun (zum Beispiel Lebensereignisse) ...
Das Apache Hadoop Ökosystem - dummies
Hadoop ist mehr als MapReduce und HDFS (Hadoop Distributed File System): Es ist auch eine Familie von verwandten Projekten (ein Ökosystem, wirklich) für verteiltes Rechnen und groß angelegte Datenverarbeitung. Die meisten (aber nicht alle) dieser Projekte werden von der Apache Software Foundation gehostet. Die Tabelle listet einige dieser Projekte auf. Verwandte Hadoop-Projekte Projektname Beschreibung ...
Die Hadoop dfsadmin-Befehlsoptionen - dummies
Die dfsadmin-Tools sind ein spezifisches Toolset, das Ihnen beim Ausfindigmachen von Informationen hilft. über Ihr Hadoop Distributed File System (HDFS). Als zusätzlichen Bonus können Sie damit auch einige Administrationsvorgänge auf HDFS durchführen. Option Funktion - Bericht Meldet grundlegende Dateisysteminformationen und Statistiken. -safemode enter | ...