Der Hybrid-Datenvorverarbeitungsoption in Hadoop-Dummies

Video: No Time to Die Trailer #1 2025

Zusätzlich zur Speicherung größerer Mengen an kalten Daten wird ein Druck in Bei traditionellen Data Warehouses werden immer mehr Verarbeitungsressourcen für Transformationsworkloads (ELT-Workloads) verwendet.

Die Idee hinter der Verwendung von Hadoop als Vorverarbeitungs-Engine zur Verarbeitung von Datentransformationen bedeutet, dass wertvolle Verarbeitungszyklen freigesetzt werden, sodass das Data Warehouse seinen ursprünglichen Zweck erfüllen kann: Beantworten Sie wiederholte Geschäftsfragen, um analytische Anwendungen zu unterstützen. Sie sehen wieder, wie Hadoop traditionelle Data Warehouse-Implementierungen ergänzen und ihre Produktivität steigern kann.

Vielleicht hat sich eine winzige, imaginäre Glühbirne über deinem Kopf entzündet und du denkst: "Hey, vielleicht sind einige Transformationsaufgaben, die perfekt für die Datenverarbeitungsfähigkeit von Hadoop geeignet sind., aber ich weiß, dass es auch viele Transformationsarbeiten gibt, die von algebraischen Schritt-für-Schritt-Aufgaben durchdrungen sind, bei denen die Ausführung von SQL auf einem relationalen Datenbankmodul die bessere Wahl wäre. Wäre es nicht cool, wenn ich SQL auf Hadoop ausführen könnte? "

SQL auf Hadoop ist schon da. Mit der Möglichkeit, SQL-Abfragen für Daten in Hadoop auszuführen, bleibt Ihnen nicht nur ein ETL-Ansatz für Ihre Datenflüsse erhalten - Sie können auch ELT-ähnliche Anwendungen bereitstellen.

Ein weiterer hybrider Ansatz ist die Frage, wo die Transformationslogik ausgeführt werden soll: in Hadoop oder im Data Warehouse? Obwohl einige Unternehmen Bedenken haben, in ihren Lagern alles andere als Analytics zu verwenden, bleibt die Tatsache bestehen, dass relationale Datenbanken beim Ausführen von SQL hervorragend sind und ein praktischerer Ort für die Ausführung einer Transformation als Hadoop sein könnten.