Zuhause Persönliche Finanzen Alternative Big Data Solutions - Dummies

Alternative Big Data Solutions - Dummies

Inhaltsverzeichnis:

Video: Andrew Krackov California Healthcare Foundation - Big Data 2014 2024

Video: Andrew Krackov California Healthcare Foundation - Big Data 2014 2024
Anonim

Wenn Sie Hadoop überfliegen, sehen Sie alternative Big Data-Lösungen auf der Horizont. Diese Lösungen ermöglichen es, mit Big Data in Echtzeit zu arbeiten oder alternative Datenbanktechnologien zu verwenden und zu verarbeiten. Hier lernen Sie die Echtzeit-Verarbeitungsframeworks kennen, dann die Massively Parallel Processing (MPP) -Plattformen und schließlich die NoSQL-Datenbanken, die es Ihnen ermöglichen, mit Big Data außerhalb der Hadoop-Umgebung zu arbeiten.

Sie sollten über etwas Bescheid wissen, das als ACID-Konformität bezeichnet wird, kurz für A Tomizität, C Konsistenz, I -Solation, und D Kompatibilität der Unverträglichkeit. ACID-Compliance ist ein Standard, durch den genaue und zuverlässige Datenbanktransaktionen garantiert werden.

Bei Big-Data-Lösungen sind die meisten Datenbanksysteme nicht ACID-konform, aber dies stellt nicht notwendigerweise ein großes Problem dar. Das liegt daran, dass die meisten Big-Data-Systeme Entscheidungsunterstützungssysteme (Decision Support Systems, DSS) verwenden, die Daten im Stapel verarbeiten, bevor diese Daten ausgelesen werden. DSS sind Informationssysteme, die zur organisatorischen Entscheidungsunterstützung verwendet werden. Nicht-transaktionale DSS weisen keine echten ACID-Compliance-Anforderungen auf.

Echtzeit-Verarbeitungsframeworks

Manchmal müssen Sie möglicherweise große Datenströme in Echtzeit abfragen … und das können Sie mit Hadoop einfach nicht. Verwenden Sie in diesen Fällen stattdessen ein Echtzeitverarbeitungs-Framework. Ein Echtzeit-Verarbeitungsrahmen ist - wie der Name schon sagt - ein Framework, das Daten in Echtzeit (oder nahezu in Echtzeit) verarbeiten kann, während diese Datenströme in das System einfließen. Im Wesentlichen sind Echtzeit-Verarbeitungsframeworks die Antithese der Batch-Verarbeitungsframeworks, die in Hadoop eingesetzt werden.

Echtzeit-Verarbeitungsframeworks können in die folgenden zwei Kategorien eingeteilt werden:

  • Frameworks, die den Overhead von MapReduce-Aufgaben verringern, um die Gesamteffizienz des Systems zu erhöhen: Lösungen in Zu dieser Kategorie gehören Apache Storm und Apache Spark für die Stream-Verarbeitung in Echtzeit.

  • Frameworks, die innovative Abfragemethoden einsetzen, um das Abfragen von Big Data in Echtzeit zu ermöglichen: Zu ​​den Lösungen in dieser Kategorie gehören Google Dremel, Apache Drill, Shark für Apache Hive und Cloudera's Impala.

Echtzeit-Stream-Processing-Frameworks sind in einer Vielzahl von Branchen sehr nützlich - von Aktien- und Finanzmarktanalysen bis hin zu E-Commerce-Optimierungen und von der Echtzeit-Betrugserkennung bis hin zur optimierten Auftragslogistik. Unabhängig von der Branche, in der Sie arbeiten, wenn Ihr Unternehmen von Echtzeit-Datenströmen betroffen ist, die von Menschen, Maschinen oder Sensoren generiert werden, wäre ein Echtzeit-Verarbeitungsframework hilfreich, um Ihren Wert zu optimieren und zu generieren. Organisation.

Massively Parallel Processing (MPP) -Plattformen

Massively Parallel Processing (MPP) -Plattformen können anstelle von MapReduce als alternativer Ansatz für die verteilte Datenverarbeitung eingesetzt werden. Wenn Ihr Ziel die parallele Verarbeitung in einem traditionellen Data Warehouse ist, kann ein MPP die perfekte Lösung sein.

Um zu verstehen, wie MPP mit einem standardmäßigen MapReduce-Framework für die parallele Verarbeitung verglichen wird, sollten Sie Folgendes berücksichtigen. MPP führt parallele Rechenaufgaben auf kostspieliger, kundenspezifischer Hardware aus, während MapReduce sie auf billigen Commodity-Servern ausführt. Folglich sind MPP-Verarbeitungsfähigkeiten kosteneinschränkend. Dies bedeutet, dass MPP schneller und einfacher zu verwenden ist als standardmäßige MapReduce-Jobs. Das liegt daran, dass MPP mithilfe von Structured Query Language (SQL) abgefragt werden kann, aber native MapReduce-Jobs werden von der komplizierteren Java-Programmiersprache gesteuert.

Zu ​​den bekannten MPP-Anbietern und -Produkten gehören die Teradata-Plattform der alten Schule sowie neuere Lösungen wie Greenplum DCA von EMC 2 , Vertica von HP, Netezza von IBM und Exadata von Oracle.

Einführung in NoSQL-Datenbanken

Traditionelle relationale Datenbankverwaltungssysteme (RDBMS) sind nicht für große Datenanforderungen geeignet. Das liegt daran, dass traditionelle relationale Datenbanken nur relationale Datasets verarbeiten können, die aus Daten bestehen, die in sauberen Zeilen und Spalten gespeichert sind und daher über Structured Query Language (SQL) abgefragt werden können.

RDBM-Systeme sind nicht in der Lage, unstrukturierte und semi-strukturierte Daten zu verarbeiten. Darüber hinaus haben RDBM-Systeme einfach nicht die Verarbeitungs- und Handhabungsfähigkeiten, die erforderlich sind, um große Datenmengen- und Geschwindigkeitsanforderungen zu erfüllen.

Hier kommt NoSQL ins Spiel. NoSQL-Datenbanken, wie MongoDB, sind nicht relationale, verteilte Datenbanksysteme, die entwickelt wurden, um die Big-Data-Herausforderung zu bewältigen. NoSQL-Datenbanken gehen über die traditionelle relationale Datenbankarchitektur hinaus und bieten eine wesentlich skalierbarere, effizientere Lösung.

NoSQL-Systeme ermöglichen die Abfrage von nicht-relationalen oder schemafreien, semi-strukturierten und unstrukturierten Daten. Auf diese Weise können NoSQL-Datenbanken die strukturierten, semi-strukturierten und unstrukturierten Datenquellen verarbeiten, die in Big-Data-Systemen üblich sind.

NoSQL bietet vier Kategorien nicht-relationaler Datenbanken an: Diagrammdatenbanken, Dokumentendatenbanken, Schlüsselwertspeicher und Spaltenfamilienspeicher. Da NoSQL für jeden dieser separaten Typen von Datenstrukturen native Funktionalität bietet, bietet es eine sehr effiziente Speicher- und Abruffunktionalität für die meisten Typen nicht relationaler Daten. Diese Anpassungsfähigkeit und Effizienz macht NoSQL zu einer immer beliebteren Wahl für die Handhabung von Big Data und zur Überwindung von Verarbeitungsherausforderungen, die damit einhergehen.

Es gibt eine gewisse Debatte über die Bedeutung des Namens NoSQL. Einige argumentieren, dass NoSQL für Nicht nur SQL steht, während andere argumentieren, dass das Akronym Nicht-SQL-Datenbanken darstellt. Das Argument ist ziemlich komplex und es gibt keine wirkliche, trockene Antwort.Um es einfach zu halten, denken Sie nur an NoSQL als eine Klasse von nicht-relationalen Datenbankverwaltungssystemen, die nicht in das Spektrum von RDBM-Systemen fallen, die mit SQL abgefragt werden.

Alternative Big Data Solutions - Dummies

Die Wahl des Herausgebers

Netzwerkgrundlagen: IPv6-Adresse Vereinfachte Notation - Dummies

Netzwerkgrundlagen: IPv6-Adresse Vereinfachte Notation - Dummies

Bei der Arbeit mit IPv6-Adressen kann es viel Zeit in Anspruch nehmen. schreibe deine Adressen - immerhin sind sie 128 Bit lang. Um das Leben einfacher zu machen, gibt es einige Regeln, die Sie verwenden können, um diese Schreibweise zu verdichten: Führende Nullen in der Adresse sind optional. Für einen Adressblock wäre also 0A45 gleich A45, ...

Netzwerkgrundlagen: IP-Netzwerkklassen - Dummies

Netzwerkgrundlagen: IP-Netzwerkklassen - Dummies

Netzwerkadressierungsarchitektur unterteilt den Adressraum für Internet Protocol Version 4 (IPv4 ) in fünf Adressklassen. Jede Klasse, die in den ersten vier Bits der Adresse codiert ist, definiert entweder eine andere Netzwerkgröße, d.h. e. Anzahl der Hosts für Unicast-Adressen (Klassen A, B, C) oder Multicast-Netzwerk (Klasse D). Die fünfte Klasse (E) address ...

Netzwerkgrundlagen: Netzwerkport Übersicht - Dummys

Netzwerkgrundlagen: Netzwerkport Übersicht - Dummys

In TCP / IP- und UDP-Netzwerken ist ein Port ein Endpunkt eine logische Verbindung. Die Portnummer gibt an, um welchen Port es sich handelt. Port 80 wird beispielsweise für HTTP-Datenverkehr verwendet. Wenn Sie einen Befehl wie netstat -n unter Microsoft Windows oder Linux verwenden, sehen Sie eine Auflistung der lokalen Adressen ...

Die Wahl des Herausgebers

Excel-Dashboards: Wie Sie Ihr erstes Makro aufzeichnen - Dummies

Excel-Dashboards: Wie Sie Ihr erstes Makro aufzeichnen - Dummies

Wenn Sie ein Anfänger auf dem Dashboard sind Automatisierung in Excel ist es unwahrscheinlich, dass Sie den VBA-Code (Visual Basic für Applikationen) von Hand schreiben können, um Makros zu erstellen. Ohne vollständige Kenntnis des Objektmodells und der Syntax von Excel wäre das Schreiben des benötigten Codes für die meisten Anfänger unmöglich. Hier können Sie ein Makro aufzeichnen ...

Excel-Formelberechnungsmodi - Dummys

Excel-Formelberechnungsmodi - Dummys

Standardmäßig ist Excel so eingestellt, dass es automatisch neu berechnet wird. Wenn Sie eine der Zellen ändern, auf die in einer bestimmten Formel verwiesen wird, berechnet Excel diese Formel automatisch neu, sodass ein korrektes Ergebnis basierend auf den Änderungen in den Zellbezügen zurückgegeben wird. Wenn die Formel, die neu berechnet wird, auch als Zellenreferenz in anderen verwendet wird ...

Excel Formelfehler - Dummies

Excel Formelfehler - Dummies

Es ist nicht immer glatt, wenn Sie mit Excel-Formeln arbeiten. Manchmal gibt eine Formel einen Fehlerwert anstelle des erwarteten Werts zurück. Excel hilft Ihnen, das Problem zu identifizieren, indem Sie einen von sieben Fehlerwerten zurückgeben: # DIV / 0! , # N / A, #NAME? , #NULL! , #NUM! , #REF! und #WERT! , erklärt in der folgenden Liste: # DIV / 0! : ...

Die Wahl des Herausgebers

Teilen, Weiterverbreiten und Kommentieren von Google+ Posts - Dummies

Teilen, Weiterverbreiten und Kommentieren von Google+ Posts - Dummies

, Wenn Sie mit der Verwendung und Veröffentlichung beginnen Bei Google+ möchten Sie gelegentlich Links und Bilder teilen, die Beiträge anderer freigeben, ihre Beiträge kommentieren und andere in Ihren eigenen Google+ Beiträgen erwähnen. Vielleicht fragen Sie sich auch, wie Sie andere dazu bringen, Ihre eigenen Beiträge öfter zu kommentieren. Teilen von Links und Bildern in Google+ So geben Sie ein ...

Teilen Ihrer Google+ Posts mit bestimmten Personen - Dummies

Teilen Ihrer Google+ Posts mit bestimmten Personen - Dummies

Beiträge auf Google+ sind ganz einfach und können posten Text, Links, Fotos, Videos und sogar Ihren aktuellen Standort. Der schwierigste Teil des Beitrags auf Google+ besteht darin, auszuwählen, wen Sie Ihren Beitrag sehen möchten. Google+ verwendet Ihre Kreise, um festzulegen, wer Ihre Beiträge sehen kann. Kreise sind etwas einfacher als Listen, weil ...

Taggen von Personen in Google+ Fotos - Dummies

Taggen von Personen in Google+ Fotos - Dummies

Sie können Personen in Ihren Kreisen auf jedem Foto auf Google+ markieren. Wenn Sie eine Person in einem Foto taggen, wird diese Person über ihre Google+ Benachrichtigungen benachrichtigt. Sie können dann das Tag entfernen oder genehmigen, und das Foto wird mit dem Tag des Namens dieser Person darin angezeigt. Um jemanden zu markieren, ...