Verwaltung von Big Data-Technologien in einer Hybrid Cloud - Dummies

Video: HPE Cloud Bank Storage 2025

Der Begriff Big Data wird häufig in der Welt der hybriden Cloud-Technologie eingesetzt, da immer mehr Daten verarbeitet werden müssen. Die Haupttatsache über Big Data ist, dass sie am Wendepunkt der Workarounds existiert, die Organisationen in der Vergangenheit eingeführt haben, um große Mengen komplexer Daten zu verwalten. Big Data-Technologien ermöglichen es den Menschen, diese Daten tatsächlich zu analysieren und effektiv zu nutzen.

Große Dateneigenschaften

Große Daten haben im Allgemeinen drei Eigenschaften - Volumen, Vielfalt und Geschwindigkeit:

Volumen: Big Data hat ein großes Volumen. Es bezieht sich im Allgemeinen auf mindestens mehrere Terabyte an Daten. Viele Big-Data-Implementierungen versuchen Petabytes an Informationen zu analysieren.

Name	Wert
Byte	10 ⁰
Gigabyte	10 ⁹ Byte
Terabyte	10 ^{12 > Bytes} Petabyte
10	15 ^Bytes Exabyte
10	18 ^Bytes

Sorte:

Big Data gibt es in verschiedenen Formen und Größen. Es umfasst diese Arten von Daten: Strukturierte Daten
- sind die typische Art von Daten, mit denen Analysten umgehen müssen. Es enthält Umsatz und Anzahl der Verkäufe - die Art von Daten, die Sie in eine Datenbank einschließen. Strukturierte Daten werden auch in Produkten wie Sensoren und RFID-Tags neu erzeugt.
  
  Semistrukturierte Daten
- haben eine gewisse Struktur, aber nicht so, wie Sie über Tabellen in einer Datenbank nachdenken. Es enthält EDI-Formate und XML. Unstrukturierte Daten
- umfassen Text, Bild und Audio, einschließlich eines Dokuments, einer E-Mail-Nachricht, eines Tweets oder eines internen Blogs in einem Unternehmen oder im Internet. Unstrukturierte Daten machen etwa 80 Prozent aller Daten aus. Velocity:
Dies ist die Geschwindigkeit, mit der sich die Daten bewegen. Denken Sie über Sensoren nach, die jede Millisekunde Daten oder Datenströme von medizinischen Geräten erfassen. Big Data kommt oft in einem Stream zu Ihnen, so dass es eine Echtzeit-Natur hat. Die Cloud ist aufgrund ihres skalierbaren Speichers, ihrer Rechenleistung und ihrer elastischen Ressourcen ein idealer Ort für Big Data. Das Wolkenmodell ist groß angelegt; Verteiltes Computing und eine Reihe von Frameworks und Technologien haben sich herausgebildet, um dieses Modell zu unterstützen, darunter

Apache Hadoop:

Eine in Java geschriebene Open Source Distributed Computing Plattform. Es ist eine Softwarebibliothek, die eine verteilte Verarbeitung über Cluster von Computern ermöglicht. Es ist wirklich ein verteiltes Dateisystem. Es wird ein Computerpool mit jeweils einem Hadoop-Dateisystem erstellt. Hadoop wurde entwickelt, um große Mengen komplexer Daten zu verarbeiten.Die Daten können strukturiert, unstrukturiert oder semistrukturiert sein. Hadoop kann auf vielen Servern ausgeführt werden, die keinen gemeinsamen Speicher oder keine gemeinsame Festplatte verwenden. Weitere Informationen finden Sie unter Hadoop. MapReduce:
Ein von Google eingeführtes Software-Framework zur Unterstützung der verteilten Datenverarbeitung auf großen Datensätzen. Es ist das Herz dessen, was Hadoop mit Big Data und Big Data Analytics macht. Es wurde entwickelt, um Cloud-Ressourcen zu nutzen. Diese Berechnung erfolgt über zahlreiche Computer, sogenannte Cluster , und jeder Cluster wird als Knoten bezeichnet. MapReduce kann sowohl strukturierte als auch unstrukturierte Daten verarbeiten. Benutzer geben eine Zuordnungsfunktion an, die ein Schlüssel-Wert-Paar verarbeitet, um einen Satz von Zwischenpaaren zu generieren, und eine Reduzierungsfunktion, die diese Paare zusammenführt. Big Data-Datenbanken

Ein wichtiger Aspekt von Hadoop ist, dass es verschiedene Arten von Daten verarbeiten kann. Parallele Datenbankmanagementsysteme sind seit Jahrzehnten auf dem Markt. Sie können parallele Ausführung unterstützen, da die meisten Tabellen über die Knoten in einem Cluster partitioniert sind und SQL-Befehle in einen Plan übersetzt werden können, der auf die Knoten im Cluster verteilt ist. Sie befassen sich jedoch hauptsächlich mit strukturierten Daten, da es schwierig ist, unstrukturierte Freiformdaten in die Spalten und Zeilen in einem relationalen Modell einzupassen.

Hadoop hat eine Bewegung in dem begonnen, was als

NoSQL bezeichnet wurde, was nicht nur SQL bedeutet. Der Begriff bezieht sich auf eine Reihe von Technologien, die sich von relationalen Datenbanksystemen unterscheiden. Ein wesentlicher Unterschied ist, dass sie SQL nicht verwenden. Sie sind auch für verteilte Datenspeicher ausgelegt. NoSQL bedeutet nicht, dass Benutzer SQL nicht verwenden sollten. Vielmehr geht es darum, dass je nach Problemstellung relationale Datenbanken und NoSQL-Datenbanken in einer Organisation koexistieren können. Es gibt zahlreiche Beispiele für solche Arten von Datenbanken, darunter die folgenden:

Apache Cassandra:

Ein Open-Source-Datenverwaltungssystem, das ursprünglich von Facebook entwickelt wurde. Es hat keine strengen Strukturanforderungen und kann daher alle unterschiedlichen Datentypen verarbeiten. Experten behaupten, dass es sich bei der Massenverarbeitung von Echtzeittransaktionen auszeichnet. Andere Open-Source-Datenbanken sind MongoDB, Apache CouchDB und Apache HBase. Amazon Simple DB:
Amazon vergleicht diese Datenbank mit einer Tabelle, in der Spalten und Zeilen mit Attributen und Elementen gespeichert sind. Im Gegensatz zu einer Tabellenkalkulation kann jedoch jede Zelle mehrere Werte haben, und jedes Element kann einen eigenen Satz zugeordneter Attribute haben. Amazon indiziert dann automatisch die Daten. Vor kurzem kündigte Amazon Amazon Dynamo DB als eine Möglichkeit, Big Data NoSQL in die Cloud zu bringen. Google BigTable:
Dieser Hybrid ist so etwas wie ein großer Tisch. Da Tabellen sehr groß sein können, werden sie an den Zeilengrenzen in Tabellen aufgeteilt, die möglicherweise Hunderte von Megabytes umfassen. MapReduce wird häufig zum Generieren und Ändern von in BigTable gespeicherten Daten verwendet.