Zuhause Persönliche Finanzen Protokolldatenanalyse mit Hadoop - Dummies

Protokolldatenanalyse mit Hadoop - Dummies

Anonim

Die Protokollanalyse ist ein gängiger Anwendungsfall für ein erstes Hadoop-Projekt. Die frühesten Anwendungen von Hadoop waren in der Tat die großangelegte Analyse von clickstream -Protokollen - Protokollen, die Daten über die Webseiten aufzeichnen, die die Besucher besuchen und in welcher Reihenfolge sie sie besuchen.

Alle Datenprotokolle, die von Ihrer IT-Infrastruktur generiert werden, werden häufig als Datenabzug bezeichnet. Ein Protokoll ist ein Nebenprodukt eines funktionierenden Servers, ähnlich wie Rauch, der aus dem Auspuff eines Arbeitsmotors kommt. Datenauspuff hat die Konnotation von Verschmutzung oder Verschwendung, und viele Unternehmen nähern sich zweifellos dieser Art von Daten mit diesem Gedanken im Hinterkopf.

Log-Daten wachsen oft schnell, und wegen der hohen Datenmengen kann es mühsam sein, sie zu analysieren. Und der potenzielle Wert dieser Daten ist oft unklar. Daher besteht die Versuchung in IT-Abteilungen, diese Protokolldaten so schnell wie möglich zu speichern. (Schließlich kostet es Geld, um Daten zu behalten, und wenn es keinen wahrgenommenen Geschäftswert gibt, warum dann speichern?)

Aber Hadoop ändert die Mathematik: Die Kosten für das Speichern von Daten sind vergleichsweise günstig, und Hadoop wurde ursprünglich speziell für die groß angelegte Batch-Verarbeitung von Protokolldaten.

Der Anwendungsfall Log-Datenanalyse ist ein nützlicher Ort, um Ihre Hadoop-Reise zu starten, weil die Chancen gut sind, dass die Daten, mit denen Sie arbeiten, gelöscht oder "auf den Boden fallen". "Einige Unternehmen, die regelmäßig wöchentlich mehr als ein Terabyte (TB) oder mehr an Kundenwebaktivitäten erfassen, verwerfen die Daten ohne Analyse (was Sie fragen lässt, warum sie sich die Mühe gemacht haben, sie zu sammeln).

Für einen schnellen Einstieg sind die Daten in diesem Anwendungsfall wahrscheinlich leicht zu bekommen und umfassen im Allgemeinen nicht dieselben Probleme, die auftreten, wenn Sie Ihre Hadoop-Reise mit anderen (geregelten) Daten beginnen.

Wenn Branchenanalysten die rasant ansteigenden Datenmengen diskutieren (4,1 Exabyte ab 2014 - mehr als 4 Millionen 1 TB Festplatten), machen Logdaten einen Großteil dieses Wachstums aus. Und kein Wunder: Nahezu jeder Aspekt des Lebens führt nun zur Generierung von Daten. Ein Smartphone kann Hunderte von Protokolleinträgen pro Tag für einen aktiven Benutzer generieren und nicht nur Sprache, Text und Datenübertragung, sondern auch Geolokalisierungsdaten nachverfolgen.

Die meisten Haushalte verfügen jetzt über intelligente Stromzähler, die ihren Stromverbrauch protokollieren. Neuere Autos haben Tausende von Sensoren, die Aspekte ihres Zustands und ihres Gebrauchs aufzeichnen. Jede Klick- und Mausbewegung, die Sie beim Surfen im Internet vornehmen, führt zu einer Kaskade von Log-Einträgen.

Jedes Mal, wenn Sie etwas kaufen - auch ohne eine Kreditkarte oder Debitkarte -, zeichnen Systeme die Aktivität in Datenbanken auf - und in Protokollen.Sie können einige der häufigsten Quellen für Protokolldaten anzeigen: IT-Server, Web-Clickstreams, Sensoren und Transaktionssysteme.

Jede Branche (sowie alle soeben beschriebenen Log-Typen) haben das enorme Potenzial für wertvolle Analysen - insbesondere wenn Sie eine bestimmte Art von Aktivität erfassen können und dann Ihre Ergebnisse mit anderen Daten korrelieren können.

Betrachten Sie als Beispiel diese typische webbasierte Browser- und Kauferfahrung:

  1. Sie surfen auf der Website nach Artikeln, die Sie kaufen möchten.

  2. Sie klicken, um Beschreibungen eines Produkts zu lesen, das Ihnen ins Auge fällt.

  3. Schließlich fügen Sie einen Artikel zu Ihrem Warenkorb hinzu und fahren mit der Kaufabwicklung fort.

Nachdem Sie die Versandkosten gesehen haben, entscheiden Sie jedoch, dass der Artikel den Preis nicht wert ist und Sie das Browserfenster schließen. Jeder Klick, den Sie gemacht haben - und dann aufgehört hat - hat das Potenzial, dem Unternehmen hinter dieser E-Commerce-Website wertvolle Einblicke zu bieten.

In diesem Beispiel wird davon ausgegangen, dass dieses Unternehmen Clickstream-Daten erfasst (Daten zu jedem Mausklick und jeder Seitenansicht, die ein Besucher "berührt"), um zu verstehen, wie seine Kunden besser bedient werden können. Eine gemeinsame Herausforderung bei E-Commerce-Unternehmen ist es, die Schlüsselfaktoren hinter verlassenen Warenkörben zu erkennen. Wenn Sie eine tiefere Analyse der Clickstream-Daten durchführen und das Benutzerverhalten auf der Site untersuchen, müssen Muster entstehen.

Kennt Ihr Unternehmen die Antwort auf die scheinbar einfache Frage: "Werden bestimmte Produkte mehr aufgegeben als andere? "Oder die Antwort auf die Frage:" Wie viel Ertrag kann zurückgewonnen werden, wenn Sie die Verlassensquote um 10 Prozent verringern? "Im Folgenden finden Sie ein Beispiel für die Art von Berichten, die Sie Ihren Geschäftsführern vorlegen können, um ihre Investition in Ihre Hadoop-Sache zu suchen.

Um an den Punkt zu kommen, an dem Sie die Daten generieren können, um die angezeigten Diagramme zu erstellen, isolieren Sie die Webbrowsersitzungen einzelner Benutzer (ein Vorgang, der als -Sitzungserfassung bekannt ist) , identifizieren Sie den Inhalt ihrer Einkaufswagen und stellen Sie dann am Ende der Sitzung den Status der Transaktion fest - alles durch Prüfen der Clickstream-Daten.

Im Folgenden finden Sie ein Beispiel für das Zusammenstellen von Web-Browsing-Sitzungen durch Gruppieren aller Klicks und URL-Adressen nach IP-Adresse.

In einem Hadoop-Kontext arbeiten Sie immer mit Schlüsseln und Werten - jede Phase von MapReduce gibt Daten in Schlüsselsätzen und Werten ein und aus. Der Schlüssel ist die IP-Adresse, und der Wert besteht aus dem Zeitstempel und der URL. Während der Map-Phase werden Benutzersitzungen parallel für alle Dateiblöcke des Clickstream-Datasets zusammengestellt, das in Ihrem Hadoop-Cluster gespeichert ist.

Die Kartenphase gibt diese Elemente zurück:

  • Die letzte besuchte Seite

  • Eine Liste der Artikel im Warenkorb

  • Der Status der Transaktion für jede Benutzersitzung (indiziert durch den IP-Adressschlüssel) < Der Reduzierer nimmt diese Datensätze auf und führt Aggregationen durch, um die Anzahl und den Wert der pro Monat abgebrochenen Karren zusammenzurechnen und die Gesamtzahl der häufigsten letzten Seiten anzugeben, die vor dem Beenden der Benutzersitzung angezeigt wurden.

Protokolldatenanalyse mit Hadoop - Dummies

Die Wahl des Herausgebers

Wie man die Socialcast Mobile App benutzt - dummies

Wie man die Socialcast Mobile App benutzt - dummies

Sogar die stoischste Anwendung wie Microsoft Excel hat ein begleitendes Smartphone-App, natürlich hat Socialcast auch eine. Wenn es so wäre, wäre es nicht wirklich eine Ausrede zu sagen, dass Socialcast nicht sehr sozial wäre, wenn du es nicht mit in die große Welt außerhalb deiner Zelle mitnehmen könntest. Die mobile App ...

Wie man das App Verzeichnis von Yammer benutzt - dummies

Wie man das App Verzeichnis von Yammer benutzt - dummies

Sie haben vielleicht gehört: "Es gibt eine App dafür. "Nun, das ist der Fall bei Yammer, der als einzige Ressource für die Vernetzung am Arbeitsplatz funktioniert. Aber Yammer bietet Ihnen auch eine Menge Apps, mit denen Sie Ihr Arbeitsleben noch einfacher gestalten können. Es gibt zwei Möglichkeiten, auf das App-Verzeichnis zuzugreifen: Option ...

So ​​verwenden Sie die Yammer-Analysetools - Dummies

So ​​verwenden Sie die Yammer-Analysetools - Dummies

Yammer rühmt sich damit als "führendes soziales Unternehmensnetzwerk für Unternehmen" um die Arbeit intelligenter und schneller zu erledigen. "Woher weißt du, ob das wahr ist? Ein guter Weg, um zu sehen, wie es für Sie funktioniert, ist die Analyse von Yammer. Wie greifen Sie auf diese großartigen Tools zu? Es ist einfach. Log ...

Die Wahl des Herausgebers

Die Evolution von Distributed Computing für Big Data - Dummies

Die Evolution von Distributed Computing für Big Data - Dummies

Hinter allen wichtigen Trends des letzten Jahrzehnts, einschließlich Serviceorientierung, Cloud Computing, Virtualisierung und Big Data, ist eine grundlegende Technologie namens Distributed Computing. Einfach gesagt, ohne die Verteilung von Datenverarbeitung wäre keiner dieser Fortschritte möglich. Distributed Computing ist eine Technik, mit der einzelne Computer über geografische Gebiete hinweg miteinander vernetzt werden können, so als ob ...

Drei Anbieter mit Data Mining-Produkten - Dummies

Drei Anbieter mit Data Mining-Produkten - Dummies

Es gibt mehrere Anbieter, die Data-Mining-Produkte verkaufen, die Sie vielleicht in Betracht ziehen möchten. Verwenden Sie mit Ihrem Data Warehouse. Hier sind drei, die eine Überlegung wert sind. Microsoft Microsoft hat das serverseitige Data Mining mit Microsoft SQL Server 2005 eingeführt. Obwohl es nicht so ausgereift und ausgeklügelt wie SAS und SPSS ist, hat Microsoft im Laufe der Zeit seine Fähigkeit bewiesen ...

Grundlagen der Big-Data-Integration - Dummies

Grundlagen der Big-Data-Integration - Dummies

Die fundamentalen Elemente der Big-Data-Plattform verwalten Daten auf neue Weise verglichen mit der traditionellen relationalen Datenbank. Dies liegt daran, dass Skalierbarkeit und hohe Leistung erforderlich sind, um sowohl strukturierte als auch unstrukturierte Daten zu verwalten. Komponenten des Big-Data-Ökosystems von Hadoop bis NoSQL DB, MongoDB, Cassandra, ...

Die Wahl des Herausgebers

So ​​stellen Sie eine Verbindung zu Spotify Mobile her - Dummies

So ​​stellen Sie eine Verbindung zu Spotify Mobile her - Dummies

Die meisten modernen Smartphones sind Wi-Fi-fähig. In ein lokales Netzwerk können Sie Spotify-Tracks mithilfe von Wi-Fi auf Ihr Telefon streamen. Sie können Spotify Mobile zu Hause und über Wi-Fi-Netzwerke in Hotels und Cafés problemlos nutzen - Sie müssen nur sicherstellen, dass Sie angemeldet und verbunden sind. ...

Wie Spotify funktioniert - Dummies

Wie Spotify funktioniert - Dummies

Wie Spotify funktioniert, kann Auswirkungen auf den Festplattenspeicher Ihres Computers haben. Internetverbindung. Spotify funktioniert anders als viele andere Online-Musikdienste, weil es auf mehrere Arten angewiesen ist, um Ihnen reibungslos Musik ohne Verzögerungen zu liefern. In Computing-Sprechen, das Maß der Verzögerung zwischen Anfordern eines Songs und Hören es ...

So ​​erreichen Sie Spotify Support - Dummies

So ​​erreichen Sie Spotify Support - Dummies

Es kann vorkommen, dass Sie eine kleine Hilfe beim Navigieren und Verwenden von Spotify benötigen von deinen Spotify Freunden. Sie können jederzeit Support @ spotify per E-Mail senden. com mit Ihrer Frage oder melden Sie sich bei Twitter an und senden Sie einen Tweet an @spotify. Stellen Sie sicher, dass Sie alle Informationen einschließen, die dem Support-Team helfen könnten, einschließlich Ihres Benutzernamens, damit sie ...