Grundlagen der Big-Data-Integration - Dummies

Video: Data Lakes in der Praxis: Grundlagen, Möglichkeiten, Erfahrungen | AWS Transformation Day 2025

Die grundlegenden Elemente der Big-Data-Plattform verwalten Daten auf neue Weise im Vergleich zur traditionellen relationalen Datenbank. Dies liegt daran, dass Skalierbarkeit und hohe Leistung erforderlich sind, um sowohl strukturierte als auch unstrukturierte Daten zu verwalten.

Komponenten des Big-Data-Ökosystems von Hadoop bis NoSQL DB, MongoDB, Cassandra und HBase verfügen alle über einen eigenen Ansatz zum Extrahieren und Laden von Daten. Infolgedessen müssen Ihre Teams möglicherweise neue Fähigkeiten entwickeln, um den Integrationsprozess auf diesen Plattformen zu verwalten. Viele der Best Practices für das Datenmanagement Ihres Unternehmens werden jedoch noch wichtiger, wenn Sie in die Welt der Big Data einsteigen.

Während Big Data eine neue Stufe der Integrationskomplexität einführt, gelten immer noch die grundlegenden Prinzipien. Ihr Geschäftsziel muss darauf ausgerichtet sein, der Organisation zur richtigen Zeit und im richtigen Kontext hochwertige und vertrauenswürdige Daten zu liefern.

Um dieses Vertrauen zu gewährleisten, müssen Sie gemeinsame Regeln für die Datenqualität festlegen, wobei die Genauigkeit und Vollständigkeit der Daten im Vordergrund stehen. Darüber hinaus benötigen Sie einen umfassenden Ansatz für die Entwicklung von Unternehmensmetadaten, um die Datenabstammung und Governance zu verfolgen und so die Integration Ihrer Daten zu unterstützen.

Gleichzeitig entwickeln sich traditionelle Tools zur Datenintegration, um die zunehmende Vielfalt unstrukturierter Daten und das wachsende Volumen und die wachsende Geschwindigkeit von Big Data zu bewältigen. Während traditionelle Integrationsformen in einer Big-Data-Welt neue Bedeutungen annehmen, benötigen Ihre Integrationstechnologien eine gemeinsame Plattform, die Datenqualität und Profiling unterstützt.

Um fundierte Geschäftsentscheidungen auf der Basis von Big-Data-Analysen zu treffen, müssen diese Informationen auf allen Ebenen der Organisation vertraut und verstanden werden. Während es in der Explorationsphase einer Big-Data-Analyse wahrscheinlich nicht kosten- oder zeiteffektiv sein wird, übermäßig mit Datenqualität beschäftigt zu sein, müssen schließlich Qualität und Vertrauen eine Rolle spielen, wenn die Ergebnisse in den Geschäftsprozess integriert werden sollen.

Informationen müssen dem Unternehmen vertrauenswürdig, kontrolliert, konsistent und flexibel im gesamten Unternehmen bereitgestellt werden, unabhängig von den Anforderungen, die für einzelne Systeme oder Anwendungen gelten. Um dieses Ziel zu erreichen, gelten drei grundlegende Prinzipien:

Sie müssen ein gemeinsames Verständnis von Datendefinitionen erstellen. In den Anfangsphasen Ihrer Big Data-Analyse haben Sie wahrscheinlich nicht die gleiche Kontrolle über Datendefinitionen wie mit Ihren Betriebsdaten.Sobald Sie jedoch die für Ihr Unternehmen wichtigsten Muster identifiziert haben, müssen Sie Datenelemente einer gemeinsamen Definition zuordnen können.
Sie müssen eine Reihe von Datendiensten entwickeln, um die Daten zu qualifizieren und sie konsistent und letztlich vertrauenswürdig zu machen. Wenn Ihre unstrukturierten und großen Datenquellen in strukturierte Betriebsdaten integriert sind, müssen Sie darauf vertrauen können, dass die Ergebnisse aussagekräftig sind.
Sie benötigen eine optimierte Methode zur Integration Ihrer Big Data-Quellen und Datensysteme. Um gute Entscheidungen basierend auf den Ergebnissen Ihrer Big Data-Analyse treffen zu können, müssen Sie Informationen zur richtigen Zeit und im richtigen Kontext bereitstellen. Ihr Big-Data-Integrationsprozess sollte Konsistenz und Zuverlässigkeit gewährleisten.

Um Daten in gemischte Anwendungsumgebungen zu integrieren, holen Sie Daten von einer Datenumgebung (Quelle) in eine andere Datenumgebung (Ziel). Technologien zum Extrahieren, Transformieren und Laden (ETL) wurden in traditionellen Data-Warehouse-Umgebungen eingesetzt. Die Rolle von ETL wird weiterentwickelt, um neuere Datenverwaltungsumgebungen wie Hadoop zu handhaben.

In einer Big-Data-Umgebung müssen Sie möglicherweise Tools kombinieren, die Batch-Integrationsprozesse (mithilfe von ETL) mit Echtzeitintegration und Föderation über mehrere Quellen hinweg unterstützen. Beispielsweise muss ein Pharmaunternehmen möglicherweise Daten, die in seinem Master Data Management (MDM) -System gespeichert sind, mit Big Data-Quellen zu medizinischen Ergebnissen der Konsumenten-Drogenverwendung kombinieren.

Unternehmen nutzen MDM, um das Sammeln, Zusammenführen, Konsolidieren und Liefern von konsistenten und zuverlässigen Daten im gesamten Unternehmen kontrolliert zu ermöglichen. Darüber hinaus unterstützen neue Tools wie Sqoop und Scribe die Integration von Big-Data-Umgebungen. Sie finden auch eine zunehmende Bedeutung bei der Verwendung von Extrakt-, Lade- und Transformationstechniken (ELT). Diese Technologien werden als nächstes beschrieben.