Soziale Sentimentanalyse mit Hadoop - Dummies

Soziale Sentimentanalysen sind die am häufigsten überbewerteten Der Hadoop verwendet, was keine Überraschung sein sollte, da die Welt ständig verbunden ist und die aktuelle expressive Bevölkerung. Dieser Use Case nutzt Inhalte aus Foren, Blogs und anderen Social Media-Ressourcen, um ein Gespür dafür zu entwickeln, was Menschen tun (zum Beispiel Lebensereignisse) und wie sie auf die Welt um sie herum reagieren (Sentiment).

Da textbasierte Daten normalerweise nicht in eine relationale Datenbank passen, ist Hadoop ein praktischer Ort, um diese Daten zu analysieren und zu analysieren.

Die Sprache ist schwer zu interpretieren, manchmal sogar für Menschen - besonders, wenn Sie Texte lesen, die von Menschen in einer sozialen Gruppe geschrieben wurden, die sich von Ihrer eigenen unterscheidet. Diese Gruppe von Leuten mag deine Sprache sprechen, aber ihre Äußerungen und ihr Stil sind völlig fremd, so dass du keine Ahnung hast, ob sie über eine gute Erfahrung oder eine schlechte Erfahrung sprechen.

Wenn Sie beispielsweise das Wort Bombe in Bezug auf einen Film hören, könnte dies bedeuten, dass der Film schlecht war (oder gut, wenn Sie Teil der Jugend sind). eine Bewegung, die "It's da bomb" als Kompliment interpretiert; natürlich, wenn Sie in der Flugsicherheitsunternehmen sind, hat das Wort Bombe eine ganz andere Bedeutung. Der Punkt ist, dass Sprache in vielen variablen Weisen verwendet wird und sich ständig weiterentwickelt.

Wenn Sie die Stimmung in sozialen Medien analysieren, können Sie aus mehreren Ansätzen auswählen. Die grundlegende Methode analysiert den Text programmgesteuert, extrahiert Zeichenfolgen und wendet Regeln an. In einfachen Situationen ist dieser Ansatz sinnvoll. Aber wenn sich Anforderungen entwickeln und Regeln komplexer werden, ist das manuelle Codieren von Textextraktionen aus der Perspektive der Codewartung schnell nicht mehr machbar, insbesondere zur Leistungsoptimierung.

Grammatik- und regelbasierte Ansätze zur Textverarbeitung sind rechenintensiv, was bei der großtechnischen Extraktion in Hadoop eine wichtige Rolle spielt. Je komplexer die Regeln sind (was für komplexe Zwecke wie die Sentimentextraktion unvermeidlich ist), desto mehr Verarbeitung wird benötigt.

Alternativ wird für die Stimmungsanalyse ein statistischer Ansatz immer häufiger. Anstatt komplexe Regeln manuell zu schreiben, können Sie die klassifizierungsorientierten maschinellen Lernmodelle in Apache Mahout verwenden. Der Haken dabei ist, dass Sie Ihre Modelle mit Beispielen für positive und negative Gefühle trainieren müssen. Je mehr Trainingsdaten Sie bereitstellen (z. B. Text aus Tweets und Ihre Klassifikation), desto genauer sind Ihre Ergebnisse.

Der Use Case für die Analyse sozialer Sentimente kann in einer Vielzahl von Branchen angewendet werden. Betrachten Sie zum Beispiel die Lebensmittelsicherheit: Der Versuch, den Ausbruch von lebensmittelbedingten Krankheiten so schnell wie möglich vorherzusagen oder zu identifizieren, ist für Gesundheitsbeamte äußerst wichtig.

Die folgende Abbildung zeigt eine Hadoop-verankerte Anwendung, die Tweets mithilfe von Extraktoren auf der Basis der potenziellen Krankheit einnimmt: FLU oder FOOD POISONING.

Sehen Sie die generierte Heatmap, die den geografischen Standort der Tweets anzeigt? Ein Merkmal von Daten in einer Welt von Big Data ist, dass das meiste davon räumlich angereichert ist: Es hat Ortsinformationen (und auch zeitliche Attribute). In diesem Fall wurde das Twitter-Profil durch Nachschlagen des veröffentlichten Standorts rückentwickelt.

Wie sich herausstellt, haben viele Twitter-Accounts geografische Orte als Teil ihrer öffentlichen Profile (sowie Disclaimer, die eindeutig besagen, dass ihre Gedanken ihre eigenen sind, anstatt für ihre Arbeitgeber zu sprechen).

Wie gut kann eine Vorhersage-Engine soziale Medien für den Ausbruch der Grippe oder eine Lebensmittelvergiftung sein? Betrachten Sie die angezeigten anonymisierten Beispieldaten. Sie können sehen, dass Social-Media-Signale alle anderen Indikatoren für die Vorhersage eines Grippe-Ausbruchs in einem bestimmten US-Bundesstaat im Spätsommer und im Frühherbst übertrafen.

Dieses Beispiel zeigt einen weiteren Vorteil, der sich aus der Analyse sozialer Medien ergibt: Es bietet Ihnen eine noch nie da gewesene Möglichkeit, Attributinformationen in Posterprofilen zu betrachten. Zugegeben, was die Leute in ihren Twitter-Profilen über sich selbst sagen, ist oft unvollständig (zum Beispiel ist der Standortcode nicht ausgefüllt) oder nicht aussagekräftig (der Standortcode könnte sagen cloud nine ).

Aber Sie können im Laufe der Zeit viel über Menschen lernen, basierend auf dem, was sie sagen. Zum Beispiel kann ein Kunde die Ankündigung der Geburt seines Babys, ein Instagram-Bild ihres neuesten Gemäldes oder ein Facebook-Posting, das angibt, dass sie Walter Whites Verhalten nicht glauben kann, getwittert haben (auf Twitter gepostet). in der letzten Nacht Breaking Bad Finale.

In diesem allgegenwärtigen Beispiel kann Ihr Unternehmen ein Lebensereignis extrahieren, das einen Familiendiagramm (ein neues Kind ist ein wertvolles Update für ein personenbezogenes Master Data Management-Profil), ein Hobby (Malen) und ein Interessenattribut enthält. (Du liebst die Show Breaking Bad ).

Indem Sie soziale Daten auf diese Weise analysieren, haben Sie die Möglichkeit, persönliche Attribute mit Informationen wie Hobbys, Geburtstagen, Lebensereignissen, geografischen Standorten (Land, Bundesland und Stadt zum Beispiel), Arbeitgeber, Geschlecht, Eheschließung auszugestalten. Status und mehr.

Nehmen Sie für eine Minute an, dass Sie der CIO einer Fluggesellschaft sind. Mit den Postings von glücklichen oder wütenden Vielreisenden können Sie nicht nur die Stimmung ermitteln, sondern auch anhand von Social-Media-Informationen Kundenprofile für Ihr Treueprogramm abrunden.

Stellen Sie sich vor, wie viel besser Sie potentielle Kunden mit den gerade freigegebenen Informationen ansprechen könnten - zum Beispiel eine E-Mail, die dem Kunden mitteilt, dass Staffel 5 von Breaking Bad jetzt im Mediensystem des Flugzeugs verfügbar ist. oder kündigen an, dass Kinder unter zwei Jahren kostenlos fliegen.

Es ist auch ein gutes Beispiel dafür, wie Datensysteme (z. B. Vertriebs- oder Abonnementdatenbanken) auf Systeme zur Einbindung (z. B. Support-Kanäle) treffen können. Obwohl sich die Einlösungs- und Reisehistorie der Treue-Mitglieder in einer relationalen Datenbank befindet, kann das Engagementsystem Datensätze (zum Beispiel eine Spalte) aktualisieren.