Video: AWS Tutorial For Beginners | AWS Full Course - Learn AWS In 10 Hours | AWS Training | Edureka 2025
ETL-Tools kombinieren drei wichtige Funktionen (Extrahieren, Transformieren, Laden), um Daten aus einer Big Data-Umgebung zu erhalten. und legen es in eine andere Datenumgebung. Traditionell wurde ETL für die Stapelverarbeitung in Data Warehouse-Umgebungen verwendet. Data Warehouses bieten Geschäftsanwendern eine Möglichkeit, Informationen zu konsolidieren, um Daten zu analysieren und zu berichten, die für ihren Geschäftsfokus relevant sind. ETL-Tools wandeln Daten in das von Data Warehouses benötigte Format um.
Die Transformation wird tatsächlich an einem Zwischenstandort durchgeführt, bevor die Daten in das Data Warehouse geladen werden. Viele Softwareanbieter, darunter IBM, Informatica, Pervasive, Talend und Pentaho, bieten ETL-Softwaretools an.
ETL stellt die zugrunde liegende Infrastruktur für die Integration bereit, indem es drei wichtige Funktionen ausführt:
-
Extrahieren: Daten aus der Quelldatenbank lesen.
-
Transformieren: Konvertiert das Format der extrahierten Daten so, dass es den Anforderungen der Zieldatenbank entspricht. Die Transformation erfolgt durch die Verwendung von Regeln oder das Zusammenführen von Daten mit anderen Daten.
-
Laden: Daten in die Zieldatenbank schreiben.
ETL entwickelt sich jedoch weiter, um die Integration über weit mehr als herkömmliche Data Warehouses hinweg zu unterstützen. ETL kann die Integration über Transaktionssysteme, Betriebsdatenspeicher, BI-Plattformen, MDM-Hubs, Cloud- und Hadoop-Plattformen hinweg unterstützen. ETL-Softwareanbieter erweitern ihre Lösungen, um Big Data-Extraktion, -Umwandlung und -Ladung zwischen Hadoop und herkömmlichen Datenmanagementplattformen zu ermöglichen.
ETL und Softwaretools für andere Datenintegrationsprozesse wie Datenbereinigung, Profilerstellung und Auditing arbeiten an verschiedenen Aspekten der Daten, um sicherzustellen, dass die Daten als vertrauenswürdig gelten. ETL-Tools lassen sich in Datenqualitätstools integrieren, und viele enthalten Tools für die Datenbereinigung, die Datenzuordnung und die Ermittlung der Datenabstammung. Mit ETL extrahieren Sie nur die Daten, die Sie für die Integration benötigen.
ETL-Tools werden für das Laden und Konvertieren von strukturierten und unstrukturierten Daten in Hadoop benötigt. Fortgeschrittene ETL-Tools können mehrere Dateien parallel von und zu Hadoop lesen und schreiben, um die Zusammenführung von Daten in einen gemeinsamen Transformationsprozess zu vereinfachen. Einige Lösungen enthalten Bibliotheken von vordefinierten ETL-Transformationen für die Transaktions- und Interaktionsdaten, die auf Hadoop oder einer herkömmlichen Grid-Infrastruktur ausgeführt werden.
Bei der Datentransformation wird das Datenformat geändert, sodass es von verschiedenen Anwendungen verwendet werden kann.Dies kann eine Änderung von dem Format, in dem die Daten gespeichert sind, in das Format bedeuten, das von der Anwendung benötigt wird, die die Daten verwenden wird. Dieser Prozess enthält auch Mapping -Befehle, so dass Anwendungen erfahren, wie sie die zu verarbeitenden Daten erhalten.
Der Prozess der Datentransformation wird aufgrund des erstaunlichen Wachstums der Menge an unstrukturierten Daten sehr viel komplexer. Eine Geschäftsanwendung, z. B. ein Kundenbeziehungsmanagement, hat bestimmte Anforderungen für die Speicherung von Daten. Die Daten sind wahrscheinlich strukturiert in den organisierten Zeilen und Spalten einer relationalen Datenbank. Daten sind semi-strukturiert oder unstrukturiert , wenn sie nicht starren Formatanforderungen entsprechen.
Die in einer E-Mail-Nachricht enthaltenen Informationen gelten z. B. als unstrukturiert. Einige der wichtigsten Informationen eines Unternehmens sind unstrukturierte und semi-strukturierte Formulare wie Dokumente, E-Mail-Nachrichten, komplexe Messaging-Formate, Interaktionen mit dem Kundensupport, Transaktionen und Informationen aus verpackten Anwendungen wie ERP und CRM.
Datentransformations-Tools sind nicht dafür ausgelegt, mit unstrukturierten Daten zu arbeiten. Infolgedessen mussten Unternehmen, die unstrukturierte Informationen in ihre Geschäftsprozessentscheidungen einbinden mussten, mit einem erheblichen Anteil an manueller Codierung arbeiten, um die erforderliche Datenintegration zu erreichen.
In Anbetracht des Wachstums und der Bedeutung unstrukturierter Daten für die Entscheidungsfindung bieten ETL-Lösungen von großen Anbietern nun standardisierte Ansätze für die Transformation unstrukturierter Daten, damit diese einfacher in operative strukturierte Daten integriert werden können.
