Identifizieren Sie die Daten, die Sie für Ihre Big Data benötigen - Dummies

Machen Sie sich mit der Art der Daten vertraut, mit denen Sie in Ihrem Big Data-Projekt zu tun haben. Viele Unternehmen erkennen, dass viele intern generierte Daten in der Vergangenheit nicht vollständig genutzt wurden.

Durch die Nutzung neuer Tools gewinnen Unternehmen neue Einblicke in bisher nicht genutzte Quellen unstrukturierter Daten in E-Mails, Kundendienstdatensätzen, Sensordaten und Sicherheitsprotokollen. Darüber hinaus besteht großes Interesse daran, nach neuen Erkenntnissen zu suchen, die auf der Analyse von Daten basieren, die sich hauptsächlich außerhalb der Organisation befinden, wie z. B. soziale Medien, Standort von Mobiltelefonen, Verkehr und Wetter.

Die Erkundungsphase für Big Data

In den frühen Stadien Ihrer Analyse möchten Sie nach Mustern in den Daten suchen. Nur durch die Untersuchung sehr großer Datenmengen können neue und unerwartete Beziehungen und Korrelationen zwischen Elementen sichtbar werden. Diese Muster können beispielsweise Einblicke in Kundenpräferenzen für ein neues Produkt geben. Sie benötigen eine Plattform zum Organisieren Ihrer Big Data, um nach diesen Mustern zu suchen.

Hadoop wird häufig als zugrunde liegender Baustein für die Erfassung und Verarbeitung großer Datenmengen verwendet. Hadoop ist mit Funktionen ausgestattet, die die Verarbeitung von Big Data beschleunigen und es ermöglichen, Muster in großen Datenmengen in relativ kurzer Zeit zu identifizieren. Die beiden Hauptkomponenten von Hadoop - Hadoop Distributed File System (HDFS) und MapReduce - werden zum Verwalten und Verarbeiten Ihrer Big Data verwendet.

FlumeNG für die Big-Data-Integration

Es ist oft notwendig, extrem große Mengen an Streaming-Daten zu sammeln, zu aggregieren und zu verschieben, um nach versteckten Mustern in Big Data zu suchen. Traditionelle Integrationstools wie ETL wären nicht schnell genug, um die großen Datenströme rechtzeitig zu verschieben und Ergebnisse für die Analyse wie Echtzeit-Betrugserkennung zu liefern. FlumeNG lädt Daten in Echtzeit, indem die Daten in Hadoop gestreamt werden.

Normalerweise wird Flume verwendet, um große Mengen von Protokolldaten von verteilten Servern zu erfassen. Es verfolgt alle physischen und logischen Knoten in einer Flume-Installation. Agentenknoten werden auf den Servern installiert und sind dafür verantwortlich, die Art und Weise zu verwalten, wie ein einzelner Datenstrom von seinem Anfangspunkt an seinen Zielpunkt übertragen und verarbeitet wird.

Außerdem werden Sammler verwendet, um die Datenströme in größere Datenströme zu gruppieren, die in ein Hadoop-Dateisystem oder einen anderen großen Datenspeichercontainer geschrieben werden können. Flume ist auf Skalierbarkeit ausgelegt und kann einem System kontinuierlich mehr Ressourcen hinzufügen, um extrem große Datenmengen effizient zu verarbeiten.Flume-Ausgabe kann mit Hadoop und Hive für die Analyse der Daten integriert werden.

Flume verfügt außerdem über Transformationselemente für die Daten und kann Ihre Hadoop-Infrastruktur in eine Streamingquelle für unstrukturierte Daten verwandeln.

Muster in Big Data

Es gibt viele Beispiele für Unternehmen, die beginnen, Wettbewerbsvorteile aus Big Data Analytics zu realisieren. Social Media-Datenströme werden für viele Unternehmen zunehmend integraler Bestandteil einer digitalen Marketingstrategie. In der Erkundungsphase kann diese Technologie verwendet werden, um schnell große Mengen von Streaming-Daten zu durchsuchen und die Trendmuster zu extrahieren, die sich auf bestimmte Produkte oder Kunden beziehen.

Die Kodierungsstufe für Big Data

Mit Hunderten von Filialen und vielen Tausenden von Kunden benötigen Sie einen wiederholbaren Prozess, um den Sprung von der Mustererkennung zur Implementierung neuer Produktauswahl und gezielterem Marketing zu machen. Nachdem Sie etwas Interessantes in Ihrer Big Data-Analyse gefunden haben, kodifizieren Sie es und machen es zu einem Teil Ihres Geschäftsprozesses.

Um die Beziehung zwischen Ihrer Big Data-Analyse und Ihren Betriebsdaten zu kodifizieren, müssen Sie die Daten integrieren.

Big-Data-Integrations- und Integrationsphase

Big Data hat große Auswirkungen auf viele Aspekte des Datenmanagements, einschließlich der Datenintegration. Traditionell konzentrierte sich die Datenintegration auf die Bewegung von Daten durch Middleware, einschließlich Spezifikationen zur Nachrichtenweitergabe und Anforderungen für Anwendungsprogrammierschnittstellen (APIs). Diese Konzepte der Datenintegration eignen sich eher für die Verwaltung von ruhenden Daten als von Daten in Bewegung.

Der Umzug in die neue Welt der unstrukturierten Daten und Streaming-Daten verändert den konventionellen Begriff der Datenintegration. Wenn Sie Ihre Analyse von Streaming-Daten in Ihren Geschäftsprozess integrieren möchten, benötigen Sie eine fortschrittliche Technologie, die schnell genug ist, um Entscheidungen in Echtzeit zu treffen.

Nachdem Ihre Big Data-Analyse abgeschlossen ist, benötigen Sie einen Ansatz, mit dem Sie die Ergebnisse Ihrer Big Data-Analyse in Ihren Geschäftsprozess und in Echtzeit-Geschäftsaktionen integrieren oder integrieren können.

Unternehmen haben hohe Erwartungen, aus der Big Data-Analyse echten Geschäftswert zu ziehen. In der Tat möchten viele Unternehmen eine tiefere Analyse von intern generierten Big Data, wie zum Beispiel Sicherheitsprotokolldaten, beginnen, was bisher aufgrund von Technologiebeschränkungen nicht möglich war.

Technologien für den Hochgeschwindigkeitstransport sehr großer und schneller Daten sind eine Voraussetzung für die Integration über verteilte Big Data-Quellen und zwischen Big Data und Betriebsdaten. Unstrukturierte Datenquellen müssen häufig schnell über große geografische Entfernungen für die gemeinsame Nutzung und Zusammenarbeit verschoben werden.

Die Verknüpfung traditioneller Quellen mit Big Data ist ein mehrstufiger Prozess, nachdem Sie alle Daten aus Streaming-Big-Data-Quellen untersucht und die relevanten Muster identifiziert haben. Nachdem Sie die Datenmenge, die Sie verwalten und analysieren müssen, eingegrenzt haben, müssen Sie jetzt über die Integration nachdenken.