Eingefügt werden, was in ein Data Mart - Dummies
Eingefügt werden soll, wenn ein Data Mart eine kleinere Version eines Data Warehouse, kommt diese Frage: Was bedeutet "kleinerer Maßstab" in Bezug auf die Inhalte eines Data Mart? Die Antwort auf diese Frage lautet in der Regel, dass die Daten eine Untergruppe der gesamten Unternehmensdaten sind. Geografisch begrenzte Daten Ein Data Mart könnte ...
Warum die Cloud für Big Data unerlässlich ist - Dummies
Für große Unternehmen existieren zahlreiche Kombinationen von Bereitstellungs- und Bereitstellungsmodellen. Daten in der Cloud. Beispielsweise können Sie eine öffentliche Cloud IaaS oder eine private Cloud IaaS verwenden. Also, was bedeutet das für Big Data und warum passt die Cloud gut dazu? Nun, Big Data benötigt verteilte Cluster von Rechenleistung, ...
Erweiterung Ihrer Datenschicht mit NoSQL - Dummies
Eine Datenbank macht eine Sache sehr gut: Sie speichert Daten. Da jedoch für alle Anwendungen zusätzliche Software erforderlich ist, sollten Sie sicherstellen, dass Ihre ausgewählte NoSQL-Datenbank über die Tools und die Partnersoftware verfügt, die die von Ihnen benötigte erweiterte Funktionalität bereitstellen. Wenn Sie nicht sicherstellen, dass die erweiterte Funktionalität unterstützt wird, werden Sie am Ende mit der Installation beginnen ...
, Wie die Anzahl der Elemente in einem Datenstrom zu finden - Attrappen
, Obwohl eine Bloom Der Filter kann Objekte verfolgen, die von einem Stream kommen. Er kann nicht sagen, wie viele Objekte dort vorhanden sind. Ein mit Einsen gefüllter Bitvektor kann (abhängig von der Anzahl der Hashes und der Kollisionswahrscheinlichkeit) die wahre Anzahl der Objekte verschlüsseln, die an der gleichen Adresse gehasht werden. Die eindeutige Anzahl von ...
Formatieren von Daten richtig - Dummies
Menschen verwenden Erfahrung, wenn sie die Daten interpretieren, die sie sehen, Computer jedoch nicht. Ihre Data-Mining-Software wird ihr Bestes geben, um die Art der Daten in jeder Spalte zu ermitteln. Die Datentypen sind jedoch häufig nicht eindeutig. Wenn Sie eine Liste von Postleitzahlen sehen, versuchen Sie nicht, sie hinzuzufügen und zu subtrahieren. Sie wissen, dass sie ...
Fünf Big Data Best Practices - Dummies
Big Data ist nur in den ersten Schritten, aber es ist nie zu früh Erste Schritte mit Best Practices Wie bei jeder wichtigen neuen Technologie ist es wichtig, eine Strategie zu haben und zu wissen, wohin Sie steuern. Erstellen Sie eine Big-Data-Roadmap In dieser Phase haben Sie mit Big Data experimentiert ...
Fünf Pläne für Big Data Success - Dummies
Während Big Data nur in den ersten Phasen ist, wollen Sie planen Für den Erfolg. Es ist nie zu früh, um mit der Planung und guten Praktiken zu beginnen, damit Sie das, was Sie lernen, und die Erfahrung, die Sie gewinnen, nutzen können. Planen Sie Ihre Big Data-Ziele Viele Unternehmen beginnen ihre Big Data-Reise ...
Vier Stufen der Unternehmensplanung mit Big Data - Dummies
Was der Geschäftsplan durch die Hebelwirkung erreichen will Große Daten? Das ist keine einfache Frage. Verschiedene Unternehmen in unterschiedlichen Branchen müssen ihre Daten unterschiedlich verwalten. Aber einige allgemeine geschäftliche Probleme stehen im Mittelpunkt der Art und Weise, wie Big Data als ein Weg zur Planung betrachtet wird ...
Graphen Als algorithmische Datenstrukturen - Dummies
Graphen sind eine Form von allgemeiner Datenstruktur, die in Algorithmen verwendet wird. Sie sehen Diagramme, die an Orten wie Karten für GPS und an allen möglichen anderen Orten verwendet werden, an denen der Top-Down-Ansatz einer Baumstruktur nicht funktioniert. Ein Graph ist eine Art einer Baumerweiterung. Wie bei Bäumen haben Sie Knoten, die miteinander verbunden sind ...
3 Hadoop Clusterkonfigurationen - Dummies
Viele der Entscheidungen, die Sie hinsichtlich der Zusammenstellung von Racks und Netzwerken treffen müssen, sind: abhängig von der Größe Ihres Hadoop-Clusters. Es hat drei Hauptpermutationen.
Algorithmen in die Wirtschaft bringen - Dummies
Die menschliche Rasse befindet sich heute an einer unglaublichen Kreuzung beispielloser Datenmengen kleinere und leistungsfähige Hardware und analysiert durch Algorithmen, denen dieser gleiche Prozess geholfen hat zu entwickeln. Es ist nicht nur eine Frage des Volumens, was selbst eine schwierige Herausforderung ist. 2001 von der Forschungsfirma Gartner formalisiert und ...
Gordon Moore verwandelt Macht in Big Data - Dummies
Im Jahr 1965, Gordon Moore, Mitbegründer von Intel und Fairchild Semiconductor (Zwei große Unternehmen, die elektronische Komponenten für Elektronik und Computer herstellen), hieß es in einem Elektronik-Magazin mit dem Titel "Mehr Komponenten auf integrierte Schaltungen bringen", dass sich die Anzahl der Komponenten in integrierten Schaltkreisen jedes Jahr für das nächste Jahrzehnt verdoppeln würde. Zu dieser Zeit waren Transistoren ...
Apache Drill - Dummies
Apache Drill ist ein Kandidatenprojekt im Apache-Inkubator. Apache Drill ist jedoch nicht besonders kränklich. Die Kandidatentechnologien der Apache Software Foundation (ASF) beginnen alle als Inkubatorprojekte, bevor sie offizielle ASF-Technologien werden. Sie können über den Apache-Inkubator lesen. Sie können über Drill lesen. Inspiriert von Googles Dremel-Technologie ist das erklärte Leistungsziel für ...
Apache Bigtop und Hadoop - Dummies
Um Ihnen den Einstieg in Hadoop zu erleichtern. Hier finden Sie eine Anleitung zum schnellen Herunterladen und Einstellen up Hadoop auf Ihrem eigenen Laptop. Ihr Cluster wird auf einer virtuellen Maschine im Pseudo-Distributed-Modus ausgeführt, sodass Sie keine spezielle Hardware benötigen. Eine virtuelle Maschine (VM) ist ein simulierter Computer, auf dem Sie arbeiten können ...
Cloudera Impala und Hadoop - Dummies
Cloudera ist ein führender Apache Hadoop Software- und Dienstanbieter im Big-Data-Markt. Wie Apache Drill versucht die Impala-Technologie von Cloudera, die Interaktionszeit für interaktive Abfragen für Hadoop-Benutzer zu verbessern. Apache Hive bietet einen vertrauten und leistungsfähigen Abfragemechanismus für Hadoop-Benutzer, aber Abfrageantwortzeiten sind aufgrund der Abhängigkeit von Hive oft nicht akzeptabel ...
Alternative Deployment Form Factors für Hadoop - Dummies
Obwohl Hadoop am besten funktioniert, wenn es auf einem physischen Computer installiert ist, wo die Die Verarbeitung hat direkten Zugriff auf dedizierten Speicher und Netzwerk, Hadoop verfügt über alternative Bereitstellungen. Und obwohl sie weniger effizient sind als die dedizierte Hardware, bieten sich in bestimmten Fällen Alternativen an. Virtualisierte Server Ein wichtiger Trend in IT-Zentren im letzten Jahrzehnt ...
ACID versus BASE Datenspeicher - Dummies
Ein Kennzeichen relationaler Datenbanksysteme ist die so genannte ACID-Compliance. Wie Sie vielleicht schon erraten haben, ist ACID ein Akronym - die einzelnen Buchstaben, die ein Merkmal einzelner Datenbanktransaktionen beschreiben sollen, können wie in dieser Liste beschrieben erweitert werden: Atomizität: Die Datenbanktransaktion muss vollständig erfolgreich sein oder vollständig fehlschlagen. Teilerfolg ist ...
Konfigurieren von Oozie Workflows - Dummies
Als Workflow-Engine ermöglicht Oozie das Ausführen einer Reihe von Hadoop-Anwendungen in einer angegebenen Reihenfolge. als Workflow. Sie können Oozie-Workflows auf eine von drei Arten konfigurieren, abhängig von Ihren speziellen Umständen. Sie können den Konfigurationsstandard verwenden. XML-Datei: Definiert Parameter, die sich für den Workflow nicht ändern. Die Arbeit. properties file: Definiert ...
10 Hadoop Ressourcen eines Lesezeichens - Dummies
Im Folgenden finden Sie zehn großartige Hadoop-Ressourcen, die es wert sind, Lesezeichen in Ihrem Browser. Diese Ressourcen helfen Ihnen bei der Erstellung eines lebenslangen Lernplans für Hadoop. Zentrales Nervensystem: Apache. org Die Apache Software Foundation (ASF) ist die zentrale Community für Open-Source-Softwareprojekte. Nicht irgendein Projekt kann ein Apache-Projekt sein - ...
Verdichtungen in HBase - Dummies
Verdichtung, der Prozess, durch den HBase nach sich selbst aufräumt, gibt es in zwei Geschmacksrichtungen: Dur und Moll .. Große Verdichtungen können eine große Sache sein, aber zuerst müssen Sie kleinere Verdichtungen verstehen. Kleinere Verdichtungen kombinieren eine konfigurierbare Anzahl kleinerer HFiles zu einer größeren HFile. Sie können die Anzahl der HFiles so einstellen, dass sie kompakt und ...
Datenumwandlung in Hadoop - Dummies
Die Idee von Hadoop-inspirierten ETL-Motoren hat in den letzten Jahren viel Anklang gefunden. Schließlich ist Hadoop eine flexible Datenspeicherungs- und -verarbeitungsplattform, die riesige Datenmengen und Operationen auf diesen Daten unterstützen kann. Gleichzeitig ist es fehlertolerant und bietet die Möglichkeit für Kapital- und Softwarekosten ...
Datenblöcke im Hadoop Distributed File System (HDFS) - Dummies
Beim Speichern eines Datei in HDFS, bricht das System es in eine Reihe von einzelnen Blöcken und speichert diese Blöcke in verschiedenen Slave-Knoten im Hadoop-Cluster. Dies ist völlig normal, da alle Dateisysteme Dateien in Blöcke unterteilen, bevor sie auf der Festplatte gespeichert werden. HDFS hat keine ...
Data Warehouse-Modernisierung mit Hadoop - Dummies
Data Warehouses stehen unter Stress und versuchen, die gestiegenen Anforderungen an ihre endliche Ressourcen. Hadoop kann in dieser Data-Warehouse-Situation eine erhebliche Entlastung bringen. Der rapide Anstieg der Datenmenge in der Welt hat auch Data Warehouses betroffen, da die Menge der von ihnen verwalteten Daten zunimmt - teilweise weil ...
Oozie-Workflows in Hadoop entwickeln - Dummies
Oozie-Workflows sind im Kern gerichtete Graphen, in denen Aktionen definiert werden können (Hadoop-Anwendungen) und Datenfluss, jedoch ohne Schleifen. Das bedeutet, dass Sie keine Struktur definieren können, in der Sie eine bestimmte Operation immer wieder ausführen, bis eine Bedingung erfüllt ist (z. B. eine for-Schleife). Oozie-Workflows sind insofern ziemlich flexibel, als ...
Zum Vergleich von Hadoop Distributions - Dummies
Sie werden feststellen, dass das Hadoop-Ökosystem aus vielen Komponenten besteht, die alle als eigene existieren. Apache-Projekte. Da Hadoop beträchtlich gewachsen ist und mit einigen weiteren bedeutenden Änderungen konfrontiert wird, sind unterschiedliche Versionen dieser Open Source-Community-Komponenten möglicherweise nicht vollständig mit anderen Komponenten kompatibel. Das bereitet den Leuten, die es werden wollen, erhebliche Schwierigkeiten ...
Faktoren, die den Maßstab der statistischen Analyse in Hadoop erhöhen - Dummies
Der Grund, warum Menschen ihre Daten abfragen Bevor eine statistische Analyse in Hadoop durchgeführt wird, ist es erforderlich, dass diese Art von Analyse oft erhebliche Rechenressourcen erfordert. Dabei geht es nicht nur um Datenvolumen: Es gibt fünf Hauptfaktoren, die das Ausmaß der statistischen Analyse beeinflussen: Dies ist einfach, aber wir müssen es erwähnen: das Datenvolumen auf ...
Komprimieren von Daten in Hadoop - Dummies
Die riesigen Datenmengen, die in einer typischen Hadoop-Implementierung Realität sind, machen eine Komprimierung erforderlich. Die Datenkomprimierung spart auf jeden Fall viel Speicherplatz und beschleunigt die Datenübertragung in Ihrem Cluster. Es überrascht nicht, dass eine Reihe von verfügbaren Komprimierungsschemata, die als Codecs bezeichnet werden, für ...
Hadapt und Hadoop - Dummies
Ende 2010 wurde Hadapt von zwei Studenten der Yale University als Start-up gegründet. ein Assistenzprofessor für Informatik. Professor Daniel Abadi und Kamil Bajda-Pawlikowski, ein Doktorand aus der Informatikabteilung von Yale, arbeiteten am Forschungsprojekt HadoopDB. Nachdem dieser Artikel veröffentlicht wurde, Justin Borgman, ein Student aus ...
Google Dremel und Hadoop - Dummies
Für die meisten Menschen erinnert der Begriff Dremel an ein handliches, schnelles, Drehmoment-Tool, das für eine Vielzahl von Arbeiten rund um das Haus gut funktioniert. Aber wussten Sie, dass Google einen Dremel erstellt hat? Anstatt ein weiteres mechanisches Handheld-Tool zu entwickeln, entschied sich Google jedoch für ein schnelles Softwaretool für die interaktive Analyse von Big Data. ...
Hadoop und Hive - dummies
Um es kurz zu machen: Hive bietet Hadoop eine Brücke zur RDBMS-Welt und bietet SQL-Dialekt, der als Hive Query Language (HiveQL) bekannt ist und zur Ausführung von SQL-ähnlichen Aufgaben verwendet werden kann. Das ist die große Neuigkeit, aber es gibt noch mehr zu Hive als man denkt, oder mehr Anwendungen von ...
Kantenknoten in Hadoop-Clustern - Dummys
Kantenknoten sind die Schnittstelle zwischen dem Hadoop-Cluster und dem externen Netzwerk. Aus diesem Grund werden sie manchmal als Gateway-Knoten bezeichnet. Am häufigsten werden Edge-Knoten zum Ausführen von Clientanwendungen und Clusterverwaltungstools verwendet. Sie werden oft auch als Staging-Bereiche für Daten verwendet, die in den Hadoop-Cluster übertragen werden. Oozie, ...
Betrugserkennung mit Hadoop - Dummies
Das schiere Volumen an Transaktionen erschwert die Betrugserkennung aufgrund der Datenmenge. Ironischerweise kann diese Herausforderung auch dazu beitragen, bessere Betrugsvorhersagemodelle zu schaffen - ein Bereich, in dem Hadoop glänzt. In der heutigen vernetzten Welt macht es das Volumen und die Komplexität der Transaktionen schwieriger als je zuvor, Betrug zu finden. Was genutzt ...
Graphverarbeitung In Hadoop - Dummies
Gehört zu den aufregendsten neuen NoSQL-Technologien die Speicherung und Verarbeitung von Graphdaten. Man könnte denken, dass diese Aussage eine alte Nachricht ist, weil Informatiker seit Jahrzehnten Graphanalyse-Techniken entwickeln. Was Sie sagen, mag wahr sein, aber was neu ist, ist, dass Sie mit Hadoop Graphen erstellen können ...
Hadoop Distributed File System (HDFS) Föderation - Dummies
Die Lösung für die Erweiterung von Hadoop-Clustern auf unbestimmte Zeit ist die Föderation der NameNode. Bevor Hadoop 2 die Szene betrat, mussten Hadoop-Cluster mit der Tatsache leben, dass NameNode dem Grad, zu dem sie skalieren konnten, Grenzen setzte. Nur wenige Cluster konnten über 3.000 oder 4.000 Knoten skalieren. NameNode benötigt Datensätze für ...
Hadoop Hochverfügbarkeit des verteilten Dateisystems (HDFS) - Dummies
Oft in Hadoops Kindheit, eine große Menge Die Diskussion konzentrierte sich auf die Darstellung eines Single Point of Failure durch NameNode. Insgesamt hat Hadoop seit jeher eine robuste und fehlertolerante Architektur mit Ausnahme dieses Schlüsselbereichs. Ohne den NameNode gibt es keinen Hadoop-Cluster. Mit Hadoop 2 können Sie HDFS so konfigurieren, dass es ...
Hadoop als Data Preprocessing Engine - Dummies
Einer der frühesten Anwendungsfälle für Hadoop im Unternehmen war Programmatic-Transformations-Engine, die zur Vorverarbeitung von Daten verwendet wird, die für ein Data Warehouse gebunden sind. Im Wesentlichen nutzt dieser Anwendungsfall die Leistungsfähigkeit des Hadoop-Ökosystems, um Transformationen an Daten zu manipulieren und anzuwenden, bevor diese in ein Data Warehouse geladen werden. Obwohl die eigentliche Umwandlung ...
Hadoop als abfragbares Archiv von Cold Warehouse Daten - Dummies
Eine Vielzahl von Studien zeigen, dass die meisten Daten In einem Unternehmen wird Data Warehouse selten abgefragt. Datenbankanbieter haben auf solche Beobachtungen geantwortet, indem sie ihre eigenen Methoden implementiert haben, um herauszufinden, wo welche Daten wo platziert werden. Eine Methode ordnet das Datenuniversum in Bezeichnungen von warm, warm oder kalt, wo heiße Daten (manchmal aktiv ...
Hadoop als Archivierungsdatenziel - Dummies
Die kostengünstigen Speicherkosten für Hadoop plus die Möglichkeit, Hadoop-Daten abzufragen Mit SQL ist Hadoop das Hauptziel für Archivdaten. Dieser Anwendungsfall hat geringe Auswirkungen auf Ihre Organisation, da Sie mit der Erstellung Ihres Hadoop-Skill-Sets für Daten beginnen können, die nicht auf performance-missionskritischen Systemen gespeichert sind. Darüber hinaus haben Sie keine ...
Hadoop Administrationsbefehle - Dummies
Jeder Hadoop-Administrator, der es wert ist, muss einen umfassenden Satz von Befehlen für die Clusterverwaltung beherrschen. Die folgende Liste fasst die wichtigsten Befehle zusammen und gibt an, was der Befehl sowie die Syntax und die Beispiele tut. Kenne sie, und du wirst einen langen Weg auf dem Weg zur Hadoop-Weisheit zurücklegen. Balancer: Führt das Cluster-Balancing-Dienstprogramm aus. ...
Hadoop Distributed File System (HDFS) für Big Data Projekte - Dummies
Die Hadoop Distributed File System ist ein vielseitiger, flexibler, geclusterter Ansatz zum Verwalten von Dateien in einer Big Data-Umgebung. HDFS ist nicht das endgültige Ziel für Dateien. Vielmehr handelt es sich um einen Datendienst, der einen einzigartigen Satz von Fähigkeiten bietet, die benötigt werden, wenn Datenvolumen und Geschwindigkeit hoch sind. Da die Daten einmal geschrieben werden und ...