Zuhause Persönliche Finanzen Protokolldatenanalyse mit Hadoop - Dummies

Protokolldatenanalyse mit Hadoop - Dummies

Anonim

Die Protokollanalyse ist ein gängiger Anwendungsfall für ein erstes Hadoop-Projekt. Die frühesten Anwendungen von Hadoop waren in der Tat die großangelegte Analyse von clickstream -Protokollen - Protokollen, die Daten über die Webseiten aufzeichnen, die die Besucher besuchen und in welcher Reihenfolge sie sie besuchen.

Alle Datenprotokolle, die von Ihrer IT-Infrastruktur generiert werden, werden häufig als Datenabzug bezeichnet. Ein Protokoll ist ein Nebenprodukt eines funktionierenden Servers, ähnlich wie Rauch, der aus dem Auspuff eines Arbeitsmotors kommt. Datenauspuff hat die Konnotation von Verschmutzung oder Verschwendung, und viele Unternehmen nähern sich zweifellos dieser Art von Daten mit diesem Gedanken im Hinterkopf.

Log-Daten wachsen oft schnell, und wegen der hohen Datenmengen kann es mühsam sein, sie zu analysieren. Und der potenzielle Wert dieser Daten ist oft unklar. Daher besteht die Versuchung in IT-Abteilungen, diese Protokolldaten so schnell wie möglich zu speichern. (Schließlich kostet es Geld, um Daten zu behalten, und wenn es keinen wahrgenommenen Geschäftswert gibt, warum dann speichern?)

Aber Hadoop ändert die Mathematik: Die Kosten für das Speichern von Daten sind vergleichsweise günstig, und Hadoop wurde ursprünglich speziell für die groß angelegte Batch-Verarbeitung von Protokolldaten.

Der Anwendungsfall Log-Datenanalyse ist ein nützlicher Ort, um Ihre Hadoop-Reise zu starten, weil die Chancen gut sind, dass die Daten, mit denen Sie arbeiten, gelöscht oder "auf den Boden fallen". "Einige Unternehmen, die regelmäßig wöchentlich mehr als ein Terabyte (TB) oder mehr an Kundenwebaktivitäten erfassen, verwerfen die Daten ohne Analyse (was Sie fragen lässt, warum sie sich die Mühe gemacht haben, sie zu sammeln).

Für einen schnellen Einstieg sind die Daten in diesem Anwendungsfall wahrscheinlich leicht zu bekommen und umfassen im Allgemeinen nicht dieselben Probleme, die auftreten, wenn Sie Ihre Hadoop-Reise mit anderen (geregelten) Daten beginnen.

Wenn Branchenanalysten die rasant ansteigenden Datenmengen diskutieren (4,1 Exabyte ab 2014 - mehr als 4 Millionen 1 TB Festplatten), machen Logdaten einen Großteil dieses Wachstums aus. Und kein Wunder: Nahezu jeder Aspekt des Lebens führt nun zur Generierung von Daten. Ein Smartphone kann Hunderte von Protokolleinträgen pro Tag für einen aktiven Benutzer generieren und nicht nur Sprache, Text und Datenübertragung, sondern auch Geolokalisierungsdaten nachverfolgen.

Die meisten Haushalte verfügen jetzt über intelligente Stromzähler, die ihren Stromverbrauch protokollieren. Neuere Autos haben Tausende von Sensoren, die Aspekte ihres Zustands und ihres Gebrauchs aufzeichnen. Jede Klick- und Mausbewegung, die Sie beim Surfen im Internet vornehmen, führt zu einer Kaskade von Log-Einträgen.

Jedes Mal, wenn Sie etwas kaufen - auch ohne eine Kreditkarte oder Debitkarte -, zeichnen Systeme die Aktivität in Datenbanken auf - und in Protokollen.Sie können einige der häufigsten Quellen für Protokolldaten anzeigen: IT-Server, Web-Clickstreams, Sensoren und Transaktionssysteme.

Jede Branche (sowie alle soeben beschriebenen Log-Typen) haben das enorme Potenzial für wertvolle Analysen - insbesondere wenn Sie eine bestimmte Art von Aktivität erfassen können und dann Ihre Ergebnisse mit anderen Daten korrelieren können.

Betrachten Sie als Beispiel diese typische webbasierte Browser- und Kauferfahrung:

  1. Sie surfen auf der Website nach Artikeln, die Sie kaufen möchten.

  2. Sie klicken, um Beschreibungen eines Produkts zu lesen, das Ihnen ins Auge fällt.

  3. Schließlich fügen Sie einen Artikel zu Ihrem Warenkorb hinzu und fahren mit der Kaufabwicklung fort.

Nachdem Sie die Versandkosten gesehen haben, entscheiden Sie jedoch, dass der Artikel den Preis nicht wert ist und Sie das Browserfenster schließen. Jeder Klick, den Sie gemacht haben - und dann aufgehört hat - hat das Potenzial, dem Unternehmen hinter dieser E-Commerce-Website wertvolle Einblicke zu bieten.

In diesem Beispiel wird davon ausgegangen, dass dieses Unternehmen Clickstream-Daten erfasst (Daten zu jedem Mausklick und jeder Seitenansicht, die ein Besucher "berührt"), um zu verstehen, wie seine Kunden besser bedient werden können. Eine gemeinsame Herausforderung bei E-Commerce-Unternehmen ist es, die Schlüsselfaktoren hinter verlassenen Warenkörben zu erkennen. Wenn Sie eine tiefere Analyse der Clickstream-Daten durchführen und das Benutzerverhalten auf der Site untersuchen, müssen Muster entstehen.

Kennt Ihr Unternehmen die Antwort auf die scheinbar einfache Frage: "Werden bestimmte Produkte mehr aufgegeben als andere? "Oder die Antwort auf die Frage:" Wie viel Ertrag kann zurückgewonnen werden, wenn Sie die Verlassensquote um 10 Prozent verringern? "Im Folgenden finden Sie ein Beispiel für die Art von Berichten, die Sie Ihren Geschäftsführern vorlegen können, um ihre Investition in Ihre Hadoop-Sache zu suchen.

Um an den Punkt zu kommen, an dem Sie die Daten generieren können, um die angezeigten Diagramme zu erstellen, isolieren Sie die Webbrowsersitzungen einzelner Benutzer (ein Vorgang, der als -Sitzungserfassung bekannt ist) , identifizieren Sie den Inhalt ihrer Einkaufswagen und stellen Sie dann am Ende der Sitzung den Status der Transaktion fest - alles durch Prüfen der Clickstream-Daten.

Im Folgenden finden Sie ein Beispiel für das Zusammenstellen von Web-Browsing-Sitzungen durch Gruppieren aller Klicks und URL-Adressen nach IP-Adresse.

In einem Hadoop-Kontext arbeiten Sie immer mit Schlüsseln und Werten - jede Phase von MapReduce gibt Daten in Schlüsselsätzen und Werten ein und aus. Der Schlüssel ist die IP-Adresse, und der Wert besteht aus dem Zeitstempel und der URL. Während der Map-Phase werden Benutzersitzungen parallel für alle Dateiblöcke des Clickstream-Datasets zusammengestellt, das in Ihrem Hadoop-Cluster gespeichert ist.

Die Kartenphase gibt diese Elemente zurück:

  • Die letzte besuchte Seite

  • Eine Liste der Artikel im Warenkorb

  • Der Status der Transaktion für jede Benutzersitzung (indiziert durch den IP-Adressschlüssel) < Der Reduzierer nimmt diese Datensätze auf und führt Aggregationen durch, um die Anzahl und den Wert der pro Monat abgebrochenen Karren zusammenzurechnen und die Gesamtzahl der häufigsten letzten Seiten anzugeben, die vor dem Beenden der Benutzersitzung angezeigt wurden.

Protokolldatenanalyse mit Hadoop - Dummies

Die Wahl des Herausgebers

Web Marketing: Warum Suchmaschinen existieren - Dummies

Web Marketing: Warum Suchmaschinen existieren - Dummies

Wenn Sie verstehen, warum Suchmaschinen existieren, können sie für Sie in Ihrem Web-Marketing-Geschäft arbeiten. Also, hier ist eine kurze Lektion, warum Suchmaschinen existieren und wie Sie sie nutzen können, um Geld zu verdienen. Suchmaschinen liefern Relevanz. Relevanz bedeutet, dass Besucher auf Suchergebnisse klicken und zufrieden sind mit ...

Was sind Tür- und Informationsseiten? - dummies

Was sind Tür- und Informationsseiten? - dummies

Eine Doorway-Seite wird nur als Zugang von einer Suchmaschine zu Ihrer Website erstellt. Doorway-Seiten werden manchmal als Gateway-Seiten und Geisterseiten bezeichnet. Die Idee besteht darin, hoch optimierte Seiten zu erstellen, die von Suchmaschinen aufgenommen und indiziert werden und die mit etwas Glück gut ranken und somit den Traffic auf eine ...

Was ist eine Weiterleitung bei der Suchmaschinenoptimierung? - Dummies

Was ist eine Weiterleitung bei der Suchmaschinenoptimierung? - Dummies

Eine Weiterleitung ist das automatische Laden einer Seite ohne Benutzereingriff. Sie klicken auf einen Link, um eine Webseite in Ihren Browser zu laden, und innerhalb von Sekunden verschwindet die geladene Seite, und eine neue wird angezeigt. Designer erstellen häufig Seiten für Suchmaschinen - optimierte, schlüsselwortreiche Seiten -, die Besucher auf die ...

Die Wahl des Herausgebers

Behandeln Probleme mit dem Kundenservice über Social Media - Dummies

Behandeln Probleme mit dem Kundenservice über Social Media - Dummies

, Wenn Kunden wissen, dass sie direkt mit ein Geschäft in den sozialen Medien, können sie aus einer beliebigen Anzahl von Gründen mit ihnen in Verbindung treten. Aber sobald sie merken, dass ein Problem mit dem Kundenservice oder einer Produktfrage über einen einzigen Tweet oder Beitrag angesprochen werden kann, ist es wahrscheinlicher, dass sie mit dem Unternehmen Geschäfte machen.

Acht Möglichkeiten, Social Media Feedback zu erhalten - Dummies

Acht Möglichkeiten, Social Media Feedback zu erhalten - Dummies

Die heutige Technologie verändert die Art und Weise, wie wir Geschäfte machen blitzschnell. Auch der Social-Media-Handel bewegt sich blitzschnell, aber durch die Beobachtung von Erwähnungen und Fragen an die Community können Sie einen Eindruck davon bekommen, wie Ihr Markt über bevorstehende Veränderungen denkt. Auch andere Posts können Ihnen helfen, kritisches Feedback aus der Öffentlichkeit zusammenzustellen ...

Manage Social Media Commerce mit HootSuite - dummies

Manage Social Media Commerce mit HootSuite - dummies

HootSuite ist ein Social Media Management System zur Umsetzung von Outreach und Überwachung in sozialen Netzwerken über ein einziges webbasiertes Dashboard. Für Unternehmen wird HootSuite am häufigsten von Social-Media-Teams mit mehreren Agenten verwendet, aber auch viele Einzelanwender mögen es. Wenn Sie auf der Suche nach einer robusten Plattform sind, die alles an einem Ort hält, ...

Die Wahl des Herausgebers

Die 5 Kornsterne der Mittelmeer - Dummies

Die 5 Kornsterne der Mittelmeer - Dummies

Die Mittelmeerdiät ist in der Praxis des Habens begründet ein Vollkorn zu jeder Mahlzeit. Und nein, das bedeutet nicht, eine ganze Platte Vollkornspaghetti mit Fleischsauce zum Abendessen zu essen. Stattdessen machen die Menschen im Mittelmeerraum ihr Getreide zur Beilage oder schaffen durch die Zugabe von magerem Eiweiß mehr Gleichgewicht ...

Strebe nach Gesundheit mit 7 bis 10 Portionen Obst und Gemüse - Schnuller

Strebe nach Gesundheit mit 7 bis 10 Portionen Obst und Gemüse - Schnuller

Der Verzehr von sieben bis zehn Portionen Obst und Gemüse pro Tag, wie sie für die mediterrane Ernährung empfohlen werden, mag sehr viel erscheinen, aber es muss keine so große Herausforderung sein. Wenn Sie nicht die Früchte und das Gemüse lieben, die spezifisch mit der Mittelmeerdiät verbunden sind, ist das okay! Essen Sie jede Art von Obst oder Gemüse, die Sie ...

Die gesundheitlichen Vorteile von mediterranen Kräutern und Gewürzen - Dummies

Die gesundheitlichen Vorteile von mediterranen Kräutern und Gewürzen - Dummies

Sie haben vielleicht gedacht, dass der Oregano und Basilikum in Ihrer Spaghetti-Sauce lieferte nur einen deutlichen italienischen oder mediterranen Geschmack, aber diese kleinen Kräuter sind Pflanzen, was bedeutet, dass sie alle Arten von gesundheitlichen Vorteilen haben, die einen großen Einfluss auf Ihre allgemeine Gesundheit haben können. Einfache Gewürze wie Ingwer und Oregano enthalten Phytochemikalien, ...