Nehmen Sie HBase für einen Testlauf - dummies
Hier erfahren Sie, wie Sie HBase im Standalone-Modus herunterladen und bereitstellen .. Es ist erstaunlich einfach, HBase zu installieren und die Technologie zu nutzen. Denken Sie nur daran, dass HBase in der Regel auf einem Cluster von Commodity-Servern bereitgestellt wird. Sie können HBase aber auch einfach in einer Standalone-Konfiguration zum Lernen oder Demonstrieren einsetzen ...
Der Hybrid-Datenvorverarbeitungsoption in Hadoop-Dummies
Zusätzlich zum Speichern größerer Mengen an kalten Daten, Ein Druck, den Sie in traditionellen Data Warehouses sehen, ist, dass immer mehr Verarbeitungsressourcen für Transformation (ELT) Workloads verwendet werden. Die Idee, Hadoop als Vorverarbeitungs-Engine für die Datentransformation zu verwenden, führt dazu, dass wertvolle Verarbeitungszyklen freigesetzt werden, wodurch ...
Die Architektur von Apache Hive - Dummies
Wie Sie die gezeigten Elemente von Apache Hive betrachten, sehen Sie unten Dieser Hive befindet sich auf den Systemen Hadoop Distributed File System (HDFS) und MapReduce. Im Fall von MapReduce zeigen die Abbildungen die Komponenten Hadoop 1 und Hadoop 2. Mit Hadoop 1 werden Hive-Abfragen in MapReduce-Code konvertiert ...
Die Hadoop-basierte Landezone - Dummies
, Wenn Sie versuchen herauszufinden, wie eine Analyseumgebung aussehen könnte In der Zukunft stolpert man immer wieder über das Muster der Hadoop-Landezone. In der Tat ist es nicht einmal mehr eine zukunftsorientierte Diskussion, weil die Landezone die Art und Weise ist, wie zukunftsorientierte Unternehmen versuchen, die IT zu retten ...
Die Grenzen der Stichprobe in Hadoop - Dummies
Die statistische Analyse ist weit davon entfernt, ein neues Kind im Block zu sein. Es ist sicherlich eine alte Nachricht, dass es auf die Verarbeitung großer Datenmengen ankommt, um neue Erkenntnisse zu gewinnen. Die Datenmenge, die traditionell von diesen Systemen verarbeitet wird, liegt jedoch zwischen 10 und 100 (oder Hunderten von) Gigabytes - ...
Die HBase MasterServer - Dummies
Beginnen eine Diskussion der HBase (Hadoop Datenbank) Architektur durch Beschreibung von RegionServers anstelle des MasterServers .. Der Begriff "RegionServer" scheint zu implizieren, dass er vom MasterServer abhängt (und zweitrangig ist) und dass Sie daher den MasterServer zuerst besprechen sollten. Wie das alte Lied aber lautet, "ist es nicht unbedingt so. "The ...
Die Schlüssel zur erfolgreichen Annahme von Hadoop - Dummies
In jedem ernsthaften Hadoop-Projekt sollten Sie IT mit Geschäft zusammenbringen Führungskräfte von VPs bis hinunter, um zu helfen, die Schmerzpunkte Ihres Geschäfts zu lösen - jene Probleme (wirklich oder wahrgenommen), die groß in jedermanns Verstand auftauchen. Unternehmen möchten Wert aus ihren IT-Investitionen ziehen, und mit Hadoop kann es in einer Vielzahl kommen ...
Der Hive-CLI-Client - Dummies
Der erste Hive-Client ist die Hive-Befehlszeilenschnittstelle (CLI). Um die genaueren Punkte des Hive-CLI-Clients zu beherrschen, kann es hilfreich sein, die (etwas stark aussehende) Hive-Architektur zu überprüfen. In der zweiten Abbildung ist die Architektur so ausgerichtet, dass sie sich nur auf die Komponenten konzentriert, die beim Ausführen der CLI erforderlich sind. Dies sind die Komponenten ...
Das HBase-Client-Ökosystem - Dummies
HBase ist in Java geschrieben, einer eleganten Sprache für den Aufbau verteilter Technologien wie HBase, aber Gesicht Nicht jeder, der HBase-Innovationen nutzen möchte, ist ein Java-Entwickler. Darum gibt es ein reiches HBase-Client-Ökosystem, dessen einziger Zweck es ist, das schwere Java-Heben für Sie zu erledigen und ...
Die Bedeutung von MapReduce in Hadoop - Dummies
MapReduce war für die meisten Hadoop-Geschichten das einzige Spiel in der Stadt wenn es um die Datenverarbeitung geht. Die Verfügbarkeit von MapReduce war der Grund für den Erfolg von Hadoop und gleichzeitig ein wesentlicher Faktor für die weitere Annahme. MapReduce ermöglicht erfahrenen Programmierern, verteilte Anwendungen zu schreiben, ohne sich um ...
Die Attribute von HBase - Dummies
HBase (Hadoop-Datenbank) ist eine Java-Implementierung von Googles BigTable. Google definiert BigTable als "spärliche, verteilte, persistente, mehrdimensionale, sortierte Karte". "Es ist eine recht knappe Definition, aber Sie werden auch zustimmen, dass es ein bisschen komplex ist. Um die Komplexität von BigTable etwas herunterzubrechen, folgt eine Beschreibung jedes Attributs. Hbase ist dünn besiedelt ...
Der Ursprung und das Design von Hadoop - Dummies
Also was genau ist dieses Ding mit dem lustigen Namen - Hadoop? Im Kern ist Hadoop ein Framework zum Speichern von Daten auf großen Clustern von Commodity-Hardware - alltägliche Computerhardware, die erschwinglich und leicht verfügbar ist - und das Ausführen von Anwendungen mit diesen Daten. Ein Cluster ist eine Gruppe miteinander verbundener Computer (bekannt als ...
Die Pig-Architektur in Hadoop - Dummies
"Einfach" bedeutet oft "elegant", wenn es um Architekturzeichnungen für Diese neue Silicon Valley-Villa, die Sie geplant haben, wenn das Geld nach der Implementierung von Hadoop in Ihr Unternehmen fließt. Das gleiche Prinzip gilt für die Softwarearchitektur. Pig besteht aus zwei Komponenten (count 'em, two): Die Sprache selbst: Als Beweis dafür, dass Programmierer ...
MapReduce-Anwendungsablauf in Hadoop - Dummies
Im Kern ist MapReduce ein Programmiermodell für die Verarbeitung von Datensätzen, die werden über die Slave-Knoten eines Hadoop-Clusters verteilt gespeichert. Das Schlüsselkonzept hier ist teilen und erobern. Insbesondere möchten Sie einen großen Datensatz in viele kleinere Teile aufteilen und parallel mit demselben Algorithmus verarbeiten. ...
Der Pig Latin Anwendungsfluss in Hadoop - Dummies
In seinem Kern ist Pig Latin eine Datenfluss-Sprache, in der Sie definieren einen Datenstrom und eine Reihe von Transformationen, die auf die Daten angewendet werden, während sie durch Ihre Anwendung fließen. Dies steht im Gegensatz zu einer Kontrollfluss-Sprache (wie C oder Java), in der Sie eine Reihe von Anweisungen schreiben. Im Kontrollfluss ...
Die Prinzipien von Sqoop Design - Dummies
Wenn es um Sqoop geht, ist ein Bild oft mehr als tausend Worte wert, also Schauen Sie sich die Abbildung an, die Ihnen einen Überblick über die Architektur von Sqoop aus der Vogelperspektive gibt. Die Idee hinter Sqoop ist, dass es Map-Aufgaben - Aufgaben, die den parallelen Import und Export relationaler Datenbanktabellen ausführen - von innen heraus nutzt ...
Die Reduzierungsphase von Hadoops MapReduce-Anwendungsfluss - Dummies
Die Reduce-Phase verarbeitet die Schlüssel und ihre individuellen Listen. von Werten, so dass das, was normalerweise an die Client-Anwendung zurückgegeben wird, eine Reihe von Schlüssel-Wert-Paaren ist. Hier ist der bisherige Blow-by-Blow: Ein großer Datensatz wurde in kleinere Teile zerlegt, sogenannte Input-Splits, und einzelne Instanzen von Mapper-Tasks wurden jeweils verarbeitet ...
Der Web Browser als Hive Client - Dummies
Mit der Hive CLI benötigt nur einen Befehl um die Hive Shell zu starten, Wenn Sie jedoch über einen Webbrowser auf Hive zugreifen möchten, müssen Sie zuerst den HWI-Server starten und dann den Browser auf den Port richten, an dem der Server empfangsbereit ist. Die folgende Abbildung zeigt, wie dieser Typ von Hive-Client arbeitet ...
Die Zuordnungsphase von Hadoops MapReduce-Anwendungsfluss - Dummys
Eine MapReduce-Anwendung verarbeitet die Daten in Eingabesplits auf eine Datensatz-für-Datensatz-Basis und dass jeder Datensatz von MapReduce als ein Schlüssel-Wert-Paar verstanden wird. Nachdem die Eingabesplits berechnet wurden, können die Mapper-Tasks mit ihrer Verarbeitung beginnen, dh direkt nachdem die Planungsfunktion des Resource Managers ihnen ihre Verarbeitungsressourcen zugewiesen hat. ...
Die YARN-Architektur in Hadoop - Dummies
YARN, für diejenigen, die gerade auf dieser bestimmten Party ankommen, steht für eine weitere Ressource Negotiator, ein Tool, mit dem andere Datenverarbeitungs-Frameworks auf Hadoop ausgeführt werden können. Der Ruhm von YARN ist, dass es Hadoop eine elegante Lösung für eine Reihe von langjährigen Herausforderungen bietet. YARN soll eine effizientere und ...
Was SQL Access eigentlich bedeutet - Dummies
Eine Reihe von Unternehmen investieren stark in Open-Source-Projekte und proprietäre Lösungen für SQL-Zugriff auf Hadoop-Daten Wenn Sie den Begriff SQL-Zugriff hören, sollten Sie wissen, dass Sie sich auf einige Grundannahmen verlassen: Sprachstandards: Der wichtigste Standard ist natürlich die Sprache selbst. Es gibt viele "SQL-ähnliche" Lösungen, ...
YARNs Anwendungsmaster in Hadoop - Dummies
Im Gegensatz zu anderen YARN-Komponenten (noch anderer Ressourcenverhandler), keine Komponente in Hadoop 1 ordnet sich direkt dem Application Master zu. Im Wesentlichen ist dies eine Arbeit, die der JobTracker für jede Anwendung erledigt hat, aber die Implementierung ist radikal anders. Jede auf dem Hadoop-Cluster ausgeführte Anwendung verfügt über eine eigene, dedizierte Application Master-Instanz, die tatsächlich ausgeführt wird.
Der Shuffle-Phase von Hadoops MapReduce-Anwendungsfluss - Dummies
Nach der Kartenphase und vor dem Beginn der Reduce Phase ist ein Handoff-Prozess, der als Shuffle und Sort bezeichnet wird. Hier werden Daten von den Mapper-Tasks vorbereitet und zu den Knoten verschoben, an denen die Reduktionsaufgaben ausgeführt werden. Wenn die Mapper-Aufgabe abgeschlossen ist, werden die Ergebnisse nach Schlüssel sortiert, wenn ...
Wann macht HBase für Sie Sinn? - Dummies
Wann sollten Sie HBase in Betracht ziehen? Obwohl die Antwort auf diese Frage nicht unbedingt einfach für alle ist, müssen Sie für den Anfang eine große Datenanforderung und ausreichend Hardware-Ressourcen haben. Eine große Datenanforderung: Terabytes zu Petabytes - sonst haben Sie viele freie Server in Ihren Racks. Ausreichende Hardware-Ressourcen: Fünf Server ...
YARN's Knoten Manager in Hadoop - Dummies
Jeder Slave Knoten in Yet Another Resource Negotiator (YARN) hat einen Node Manager Daemon , der als Slave für den Resource Manager fungiert. Wie beim TaskTracker verfügt jeder Slave-Knoten über einen Dienst, der ihn an den Verarbeitungsdienst (Node Manager) und den Speicherdienst (DataNode) bindet, die es Hadoop ermöglichen, ein verteiltes System zu sein. ...
YARNs Resource Manager - Dummies
Die Kernkomponente von YARN (Yet Another Resource Negotiator) ist der Resource Manager, der alle Datenverarbeitungsressourcen im Hadoop-Cluster. Einfach ausgedrückt ist der Ressourcenmanager ein dedizierter Scheduler, der den anfordernden Anwendungen Ressourcen zuweist. Seine einzigen Aufgaben sind die Aufrechterhaltung einer globalen Sicht auf alle Ressourcen im Cluster, die Handhabung ...
Verfolgen von JobTracker und TaskTracker in Hadoop 1 - Dummies
Die Verarbeitung von mapReduce in Hadoop 1 erfolgt über den JobTracker und TaskTracker Dämonen. Der JobTracker verwaltet eine Übersicht über alle verfügbaren Verarbeitungsressourcen im Hadoop-Cluster und plant sie bei der Ausführung von Anwendungsanforderungen ein, und bereitet sie für die Ausführung auf die TaskTracker-Knoten auf. Während die Anwendungen ausgeführt werden, erhält der JobTracker Statusaktualisierungen von der ...
Hochgeschwindigkeitsdatencaching mit NoSQL - Dummies
Mit NoSQL haben Sie Hochgeschwindigkeits-Caching. Stellen Sie sich vor, Sie sind Bankangestellte und arbeiten mit drei anderen Kollegen zusammen. Jeder hat eine Reihe von Leuten, die bedient werden sollen. Einer der Kunden bleibt jedoch in der Schlange, um zu fragen, ob sein Scheck bereits eingelöst und der Betrag seinem Konto gutgeschrieben wurde. Wenn Sie ...
Wie man Einsichten aus Big Data kommuniziert - Dummies
Big Data kann helfen, Einblicke zu gewinnen. Unternehmen gewinnen Wettbewerbsvorteile, wenn die richtigen Informationen zur richtigen Zeit an die richtigen Leute geliefert werden. Dies bedeutet, Erkenntnisse und Informationen aus Daten zu extrahieren und sie Entscheidungsträgern auf eine Weise zu vermitteln, die sie leicht verstehen. Schließlich sind Menschen weniger wahrscheinlich zu handeln, wenn sie ...
Zookeeper und HBase Reliability - dummies
Zookeeper ist ein verteiltes Cluster von Servern, das gemeinsam zuverlässige Koordinations- und Synchronisationsdienste für Cluster-Anwendungen bereitstellt. .. Zugegeben, der Name "Zookeeper" mag auf den ersten Blick eine seltsame Wahl sein, aber wenn Sie verstehen, was es für einen HBase-Cluster tut, können Sie die Logik dahinter sehen. Beim Erstellen und Debuggen von verteilten Anwendungen ...
ÜBergang von einem RDBMS-Modell zu HBase - Dummies
, Wenn Sie die Entwurfsphase für Ihre Anwendung und Sie glauben, dass HBase eine gute Lösung wäre, und dann entwerfen Sie Ihre Zeilenschlüssel und das Schema, um sie an das HBase-Datenmodell und die Architektur anzupassen. Manchmal ist es jedoch sinnvoll, eine ursprünglich für ein RDBMS entworfene Datenbank in HBase zu verschieben. A ...
Windowing in HiveQL - dummies
Das im SQL: 2003-Standard eingeführte Konzept der Fensterung ermöglicht dem SQL-Programmierer die Erstellung eines Frame von den Daten, gegen die Aggregat und andere Fensterfunktionen arbeiten können. HiveQL unterstützt jetzt die Fensterung nach dem SQL-Standard. Beispiele sind sehr hilfreich bei der Erklärung von Fenster- und Aggregatfunktionen. Abfahrtsverzögerungen kommen mit dem Gebiet beim Fliegen ...
Hochgeschwindigkeitsschlüsselzugriff mit NoSQL - Dummys
Schlüsselwertspeicher in NoSQL sind alle über Geschwindigkeit. Sie können verschiedene Techniken verwenden, um diese Geschwindigkeit zu maximieren, vom Zwischenspeichern von Daten über das Speichern mehrerer Kopien von Daten bis hin zur Verwendung der am besten geeigneten Speicherstrukturen. Daten im Speicher zwischenspeichern Da auf Daten leicht zugegriffen werden kann, wenn sie im Arbeitsspeicher (RAM) gespeichert sind, wählen Sie einen Schlüsselwertspeicher, der ...
Wie man eine gut kontrollierte und sichere Big Data Umgebung entwickelt - Dummies
Ein nachdenklicher Durch einen gut durchdachten Sicherheitsansatz können viele Sicherheitsrisiken gemindert werden. Sie müssen eine sichere Big Data-Umgebung entwickeln. Eine Sache, die Sie tun können, ist, Ihren gegenwärtigen Zustand auszuwerten. In einer Big-Data-Umgebung beginnt Sicherheit mit der Beurteilung Ihres aktuellen Zustands. Ein guter Anfang ist ...
Steuern der Variablenreihenfolge in einem Datensatz - Dummies
Die Reihenfolge der Variablen (Spalten) in einem Datensatz Es ist in der Regel nur eine Frage, wie sie in der Quelldatei oder der Datenbankabfrage angeordnet wurden, mit der sie importiert wurden. Diese Anordnung mag für Sie nicht bequem sein. Wenn Sie viele Variablen haben, kann es schwierig sein, die gewünschten zu finden ...
Wie man Daten von KNIME erhält - Dummies
Ihr erster praktischer Schritt mit Daten ist es von überall her zu bekommen ist an den Ort, wo du es brauchst. Textformate sind häufig, und Sie werden sie wahrscheinlich oft antreffen. Einer der gebräuchlichsten ist Text mit durch Komma getrennten Werten (.csv). KNIME. com AG ist ein kleines Software- und Dienstleistungsunternehmen, das sich auf Daten konzentriert ...
Wie man Daten von Orange erhält - Dummies
Das Bioinformatiklabor der Fakultät für Computer- und Informationswissenschaften, Universität von Ljubljana, Slowenien, entwickelt Orange in Zusammenarbeit mit einer Open-Source-Community. Gehen Sie folgendermaßen vor, um die Beispieldaten in Orange zu öffnen:
Wie man Daten von RapidMiner erhält - dummies
RapidMiner ist ein kleines Software- und Dienstleistungsunternehmen, das sich auf Data Mining konzentriert. Es bietet ein Data-Mining-Produkt mit einer visuellen Programmierschnittstelle. Um die Beispieldaten in RapidMiner zu öffnen, gehen Sie folgendermaßen vor:
Wie man Daten von Weka erhält - Dummies
Die Fakultätsmitglieder der Universität von Waikato entwickeln Werkzeuge als Teil ihrer Arbeit zur Weiterentwicklung des maschinellen Lernens. Diese Werkzeuge werden in der Lehre, von Wissenschaftlern und in der Industrie eingesetzt. Weka ist ein universelles Data-Mining-Tool, das eine visuelle Programmierschnittstelle und eine breite Palette von Analysefunktionen bietet. MOA ist für Echtzeit-Mining ...
Umgang mit Partitionen in NoSQL - Dummies
Die Wortpartition wird für zwei unterschiedliche Konzepte in NoSQL Land verwendet. Eine Datenpartition ist ein Mechanismus, um sicherzustellen, dass Daten gleichmäßig über einen Cluster verteilt werden. Auf der anderen Seite tritt eine Netzwerkpartition auf, wenn zwei Teile desselben Datenbankclusters nicht miteinander kommunizieren können. Auf sehr großen Clustersystemen ist es immer wahrscheinlicher, dass ...