Video: DJ Tipps #1 Übergang von House auf Rock 2024
Wenn Sie mit der Entwurfsphase für Ihre Anwendung konfrontiert sind und glauben, dass HBase gut passt, dann sollten Sie Ihre Zeilenschlüssel und das Schema so gestalten, dass sie zum HBase-Datenmodell und zur Architektur passen. richtigen Ansatz. Manchmal ist es jedoch sinnvoll, eine ursprünglich für ein RDBMS entworfene Datenbank in HBase zu verschieben.
Ein gängiges Szenario, bei dem dieser Ansatz Sinn macht, ist eine MySQL-Datenbankinstanz, die an ihre Grenzen der Skalierbarkeit gestoßen ist. Es gibt Techniken, um eine MySQL-Instanz horizontal zu skalieren ( Sharding, ), aber dieser Prozess ist gewöhnlich umständlich und problematisch, weil MySQL ursprünglich nicht für Sharding entwickelt wurde.
Der Übergang vom relationalen Modell zum HBase-Modell ist eine relativ neue Disziplin. Es gibt jedoch bestimmte etablierte Denkmuster, die sich zu drei Schlüsselprinzipien zusammengeschlossen haben, die bei der Annäherung an einen Übergang zu beachten sind. Diese Prinzipien sind Denormalisierung, Duplikation, und intelligente Schlüssel (DDI) .
-
Denormalization: Das relationale Datenbankmodell ist abhängig von a) einem normalisierten Datenbankschema und b) verbindet Tabellen, um auf SQL-Operationen zu reagieren. Datenbank-Normalisierung ist eine Technik, die vor Datenverlust, Redundanz und anderen Anomalien schützt, wenn Daten aktualisiert und abgerufen werden.
Es gibt eine Reihe von Regeln, die die Experten befolgen, um zu einem normalisierten Datenbankschema zu kommen (und die Datenbanknormalisierung ist eine ganze Studie selbst), aber der Prozess beinhaltet normalerweise das Aufteilen größerer Tabellen in kleinere Tabellen und das Definieren von Beziehungen. zwischen ihnen. Datenbank-Denormalisierung ist das Gegenteil von Normalisierung, wobei kleinere, spezifischere Tabellen zu größeren, allgemeineren Tabellen zusammengefügt werden.
Dies ist ein übliches Muster beim Übergang zu HBase, da Joins nicht über Tabellen hinweg bereitgestellt werden und Verknüpfungen langsam sein können, da sie kostspielige Datenträgeroperationen erfordern. Der Schutz vor den Aktualisierungs- und Abrufanomalien ist jetzt die Aufgabe Ihrer HBase-Clientanwendung, da der durch die Normalisierung gewährte Schutz null und nichtig ist.
-
Duplizierung: Wenn Sie Ihr Datenbankschema denormalisieren, werden Sie wahrscheinlich die Daten duplizieren, da Sie dadurch kostspielige Lesevorgänge über mehrere Tabellen hinweg vermeiden können. Mach dir keine Sorgen über die zusätzliche Speicherung (natürlich). Sie können die automatische Skalierbarkeit von HBase zu Ihrem Vorteil nutzen.
Beachten Sie jedoch, dass Ihre Client-Anwendung zusätzliche Arbeit benötigt, um die Daten zu duplizieren und sich zu erinnern, dass HBase nativ nur atomare Operationen auf Zeilenebene vorsieht (nicht mit der in HBASE-5229 JIRA beschriebenen Ausnahme). Tabelle.
-
Intelligente Schlüssel: Da die in HBase gespeicherten Daten nach Zeilenschlüssel sortiert sind und der Zeilenschlüssel der einzige vom System bereitgestellte Index ist, kann ein sorgfältiger intelligenter Entwurf des Zeilenschlüssels einen großen Unterschied ausmachen. Beispielsweise könnte Ihr Zeilenschlüssel eine Kombination aus einer Serviceauftragsnummer und der Kundennummer sein, die den Serviceauftrag aufgegeben hat.
Mit diesem Zeilenschlüsselentwurf können Sie Daten suchen, die sich auf den Serviceauftrag beziehen, oder nach Daten suchen, die sich auf den Kunden beziehen und den gleichen Zeilenschlüssel in derselben Tabelle verwenden. Diese Technik wird für einige Abfragen schneller sein und kostspielige Tabellenverbindungen vermeiden.
Um diese speziellen Denkmuster zu verdeutlichen, nehmen Sie eine Tabelle mit den Kundenkontaktinformationen und platzieren Sie sie im Kontext einer typischen Serviceauftragsdatenbank. Die Abbildung zeigt Ihnen, wie ein normalisiertes Service-Order-Datenbankschema aussehen könnte.
Legen Sie gemäß den Regeln der RDBMS-Normalisierung die Tabelle mit den Kundenkontaktinformationen so an, dass sie von der Serviceauftragstabelle getrennt ist, um zu vermeiden, dass Kundendaten verloren gehen, wenn Serviceaufträge geschlossen und möglicherweise gelöscht werden. Gehen Sie für die Tabelle "Produkte" genauso vor, sodass neue Produkte unabhängig von Serviceaufträgen in die fiktive Unternehmensdatenbank aufgenommen werden können.
Durch die Verwendung von RDBMS-Joinoperationen unterstützt dieses Schema Abfragen, die die Anzahl der Serviceaufträge angeben, die für ein bestimmtes Produkt zusammen mit dem Standort des Kunden geöffnet werden, an dem das Produkt verwendet wird.
Das ist alles schön und gut, aber es ist ein Schema, das Sie mit RDBM verwenden würden. Wie überführen Sie dieses Schema in ein HBase-Schema? Die nächste Abbildung zeigt ein mögliches HBase-Schema - eines, das dem DDI-Entwurfsmuster folgt.
Die Tabelle mit den Kontaktdaten des Kunden wurde durch Eingabe des Kundennamens und der Kontaktinformationen anstelle der zuvor verwendeten Fremdschlüssel denormalisiert. Außerdem werden die Daten dupliziert, indem die Tabelle mit den Kundenkontaktinformationen unverändert beibehalten wird. Jetzt sind Verknüpfungen zwischen der Tabelle "Servicereihenfolge" und der Tabelle "Kundenkontaktinformationen" nicht erforderlich.
Zusätzlich wurde ein intelligenter Zeilenschlüsselentwurf verwendet, der die Produktnummer mit der Kundennummer kombiniert, um die Serviceauftragsnummer zu bilden (z. B. A100 | 00001). Mit diesem intelligenten Schlüssel kann die Serviceauftragstabelle wichtige Berichte über Produktmängel und Kunden, die aktuell Produktprobleme haben, bereitstellen.
Alle diese Abfragen können alle von HBase in einer atomaren Art und Weise auf Zeilenebene für die Anwendung unterstützt werden. Da Sie wissen, dass HBase Zeilenschlüssel ordnet und sie lexikografisch sortiert, kann Ihre Anwendung bei der Ausgabe von Scans für die Berichterstellung bestimmte fundierte Vermutungen über die Datenlokalität machen. (Alle Produktnummern der A * -Serie werden z. B. zusammen gespeichert.)
Die durch das HBase-Schema dargestellte Serviceauftragsdatenbank ist ein relativ einfaches Beispiel, zeigt jedoch, wie sich HBase in bestimmten Fällen mit der RDBMS-Welt überschneiden kann. und bieten einen signifikanten Wert. Wenn das fiktive Unternehmen Terabytes oder sogar Petabytes an Service-Call-Daten zum Speichern hat, würde HBase einen enormen Unterschied in Bezug auf Kosten, Zuverlässigkeit, Leistung und Skalierung ausmachen.
Sie können Ihr HBase-Schema für Serviceaufträge auf verschiedene Arten entwerfen. Zugegebenermaßen hängt das Design von den Abfragen ab, die unterstützt werden müssen, aber Sie können einige relationale Datenbanken in sehr leistungsfähige HBase-Anwendungen für die Produktionsanwendung überführen, solange Sie von einem soliden Verständnis der HBase-Architektur und des DDI-Entwurfsmusters ausgehen.
In diesem Beispiel wurde davon ausgegangen, dass Abfragen von einer Java-Anwendung ausgeführt wurden, die die HBase-Client-APIs oder möglicherweise eine andere Sprache mit Apache Thrift nutzt. Dieses Anwendungsmodell kann den Anforderungen gut entsprechen und bietet nützliche Leistungs- und Anpassungsoptionen für die fiktive Dienstfirma.