Video: How to Install Hadoop on Windows 2024
HBase ist eine verteilte, nicht relationale (Spalten-) Datenbank, die HDFS als Persistenzspeicher für Big Data-Projekte verwendet. Es ist nach Google BigTable modelliert und kann sehr große Tabellen (Milliarden von Spalten / Zeilen) hosten, weil es auf Hadoop-Clustern von Standardhardware liegt.
HBase bietet einen zufälligen Echtzeit-Lese- / Schreibzugriff auf Big Data. HBase ist sehr konfigurierbar und bietet eine große Flexibilität, um große Datenmengen effizient zu adressieren. Werfen Sie jetzt einen Blick darauf, wie HBase Ihnen helfen kann, Ihre Big-Data-Herausforderungen anzugehen.
HBase ist eine Spaltendatenbank, dh alle Daten werden in Tabellen mit Zeilen und Spalten gespeichert, die relationalen Datenbankverwaltungssystemen (RDBMSs) ähneln. Der Schnittpunkt einer Zeile und einer Spalte wird Zelle genannt. Ein wichtiger Unterschied zwischen HBase-Tabellen und RDBMS-Tabellen ist die Versionierung.
Jeder Zellenwert enthält ein "Versions" -Attribut, das nichts anderes als ein Zeitstempel ist, der die Zelle eindeutig identifiziert. Die Versionierung protokolliert Änderungen in der Zelle und ermöglicht das Abrufen aller Versionen des Inhalts, falls dies erforderlich werden sollte. HBase speichert die Daten in absteigender Reihenfolge in Zellen (unter Verwendung des Zeitstempels), so dass ein Lesen immer zuerst die neuesten Werte findet.
Spalten in HBase gehören zu einer Spaltenfamilie. Der Spaltenfamilienname wird als Präfix verwendet, um Mitglieder seiner Familie zu identifizieren. Zum Beispiel Früchte: Apfel und Früchte: Bananen sind Mitglieder der Familie der Früchte. HBase-Implementierungen sind auf der Ebene der Spaltenfamilien abgestimmt. Daher ist es wichtig, darauf zu achten, wie Sie auf die Daten zugreifen und wie groß die Spalten sein sollen.
Den Zeilen in HBase-Tabellen ist ebenfalls ein Schlüssel zugeordnet. Die Struktur des Schlüssels ist sehr flexibel. Es kann ein berechneter Wert, ein String oder sogar eine andere Datenstruktur sein. Der Schlüssel wird verwendet, um den Zugriff auf die Zellen in der Reihe zu steuern, und sie werden in der Reihenfolge von einem niedrigen Wert zu einem hohen Wert gespeichert.
Alle diese Merkmale bilden zusammen das Schema. Das Schema wird definiert und erstellt, bevor irgendwelche Daten gespeichert werden können. Trotzdem können Tabellen geändert und neue Spaltenfamilien hinzugefügt werden, nachdem die Datenbank betriebsbereit ist. Diese Erweiterbarkeit ist äußerst nützlich beim Umgang mit Big Data, da Sie nicht immer über die Vielfalt Ihrer Datenströme Bescheid wissen.