Video: Data Analysts Tools - 5 Crucial Data Tools [2019] 2024
Die Idee von Hadoop-inspirierten ETL-Motoren hat in den letzten Jahren viel Anklang gefunden. Schließlich ist Hadoop eine flexible Datenspeicherungs- und -verarbeitungsplattform, die riesige Datenmengen und Operationen auf diesen Daten unterstützen kann. Gleichzeitig ist es fehlertolerant und bietet die Möglichkeit für Kapital- und Softwarekostenreduzierungen.
Trotz der Popularität von Hadoop als ETL-Engine empfehlen viele Leute (einschließlich einer berühmten Analystenfirma) Hadoop nicht als einziges technologisches Element für Ihre ETL-Strategie. Dies liegt vor allem daran, dass die Entwicklung von ETL-Flows sehr viel Fachwissen über die vorhandenen Datenbanksysteme Ihres Unternehmens, die Art der Daten selbst und die davon abhängigen Berichte und Anwendungen erfordert.
Mit anderen Worten: Die Datenbankadministratoren, Entwickler und Architekten in Ihrer IT-Abteilung müssen sich mit Hadoop vertraut machen, um die erforderlichen ETL-Abläufe zu implementieren. Zum Beispiel kann eine Menge intensiver Hand-Codierung mit Pig, Hive oder sogar MapReduce notwendig sein, um selbst die einfachsten Datenflüsse zu erstellen - was Ihr Unternehmen für diese Fähigkeiten an die Haken stellt, wenn es diesen Weg einschlägt.
Sie müssen Elemente wie paralleles Debugging, Anwendungsverwaltungsdienste (z. B. Scheckzeiger und Fehler- und Ereignisbehandlung) codieren. Berücksichtigen Sie auch Unternehmensanforderungen wie Glossarisierung und die Möglichkeit, die Herkunft Ihrer Daten anzuzeigen.
Es gibt gesetzliche Anforderungen für viele Industriestandardberichte, bei denen eine Datenabstammung erforderlich ist. Die berichtende Organisation muss in der Lage sein zu zeigen, woher die Datenpunkte im Bericht stammen, wie die Daten zu Ihnen gekommen sind und was mit den Daten geschehen ist.
Auch für relationale Datenbanksysteme ist ETL komplex genug, dass es populäre spezialisierte Produkte gibt, die Schnittstellen zur Verwaltung und Entwicklung von ETL-Flüssen bieten. Einige dieser Produkte unterstützen jetzt Hadoop-basierte ETL und andere Hadoop-basierte Entwicklung. Abhängig von Ihren Anforderungen müssen Sie jedoch möglicherweise etwas von Ihrem eigenen Code schreiben, um Ihre Transformationslogik zu unterstützen.