Zuhause Persönliche Finanzen Analyse und Extraktionstechniken für Big Data - Dummies

Analyse und Extraktionstechniken für Big Data - Dummies

Inhaltsverzeichnis:

Video: Prometheus - Goethe (Analyse und Interpretation) 2024

Video: Prometheus - Goethe (Analyse und Interpretation) 2024
Anonim

Im Allgemeinen verwenden Textanalyselösungen für Big Data eine Kombination aus statistischen und Natural Language Processing (NLP) -Techniken, um Informationen aus unstrukturierten Daten zu extrahieren. NLP ist ein weites und komplexes Gebiet, das sich in den letzten 20 Jahren entwickelt hat.

Ein primäres Ziel von NLP ist es, Bedeutung aus Text abzuleiten. Die Verarbeitung natürlicher Sprache verwendet im Allgemeinen sprachliche Konzepte wie grammatikalische Strukturen und Wortarten. Häufig besteht die Idee hinter dieser Art von Analyse darin, zu bestimmen, wer was wann, wo, wie und warum getan hat.

NLP führt eine Analyse von Text auf verschiedenen Ebenen durch:

  • Die lexikalische / morphologische Analyse untersucht die Eigenschaften eines einzelnen Wortes - einschließlich Präfixe, Suffixe, Wurzeln und Wortarten (Substantiv, Verb, Adjektiv und so weiter) - Informationen, die dazu beitragen, zu verstehen, was das Wort im Kontext des bereitgestellten Textes bedeutet. Die lexikalische Analyse hängt von einem Wörterbuch, Thesaurus oder einer Liste von Wörtern ab, die Informationen über diese Wörter bereitstellt.

  • Die syntaktische Analyse benutzt die grammatische Struktur, um den Text zu zerlegen und einzelne Wörter in einen Kontext zu bringen. Hier erweitern Sie Ihren Blick von einem einzigen Wort auf die Phrase oder den ganzen Satz. Dieser Schritt könnte die Beziehung zwischen Wörtern (die Grammatik) darstellen oder nach Folgen von Wörtern suchen, die korrekte Sätze bilden, oder nach Folgen von Zahlen, die Daten oder Geldwerte darstellen.

  • Semantische Analyse bestimmt die möglichen Bedeutungen eines Satzes. Dies kann die Untersuchung der Wortreihenfolge und der Satzstruktur sowie die Eindeutigkeit von Wörtern umfassen, indem die in den Phrasen, Sätzen und Absätzen gefundene Syntax in Beziehung gesetzt wird.

  • Discourse-Level-Analyse versucht, die Bedeutung von Text über die Satzebene hinaus zu bestimmen.

Verstehen der extrahierten Informationen aus Big Data

Bestimmte Techniken, kombiniert mit anderen statistischen oder linguistischen Techniken zur Automatisierung der Markierung und Markierung von Textdokumenten, können die folgenden Arten von Informationen extrahieren:

  • Begriffe: Name für Schlüsselwörter.

  • Entities: Oft genannte named Entities , sind spezifische Beispiele für Abstraktionen. Beispiele sind Namen von Personen, Firmennamen, geografische Standorte, Kontaktinformationen, Daten, Uhrzeiten, Währungen, Titel und Positionen usw. Zum Beispiel kann Textanalysesoftware die Entität Jane Doe als eine Person extrahieren, auf die im analysierten Text Bezug genommen wird. Die Entität 3. März 2007 kann als Datum extrahiert werden usw.

  • Fakten: Fakten, die auch als Beziehungen , bezeichnet werden, geben die who / what / where-Beziehungen zwischen zwei Entitäten an. John Smith ist der Geschäftsführer der Firma Y und Aspirin reduziert Fieber sind Beispiele für Fakten.

  • Ereignisse: Während einige Experten die Begriffe Tatsache , Beziehung , und Ereignis austauschbar verwenden, unterscheiden andere zwischen Ereignissen und Tatsachen, dass Ereignisse normalerweise eine Zeitdimension enthalten und oft dazu führen, dass sich Fakten ändern. Beispiele sind ein Wechsel im Management innerhalb eines Unternehmens oder der Status eines Verkaufsprozesses.

  • Konzepte: Dies sind Sätze von Wörtern und Ausdrücken, die auf eine bestimmte Idee oder ein Thema hinweisen, mit denen der Benutzer zu tun hat. Zum Beispiel kann das Konzept unzufriedener Kunde die Wörter wütend, enttäuscht, und verwirrt und die Begriffe Dienst trennen, nicht zurückrufen. und Geldverschwendung - unter vielen anderen. Somit kann das Konzept unzufriedener Kunde extrahiert werden, ohne dass die Wörter unglücklich oder Kunde im Text erscheinen.

  • Sentiments: Die Sentimentanalyse wird verwendet, um Standpunkte oder Emotionen im zugrunde liegenden Text zu identifizieren. Einige Techniken tun dies, indem sie Text als beispielsweise subjektiv (Meinung) oder objektiv (Tatsache) klassifizieren, wobei maschinelles Lernen oder NLP-Techniken verwendet werden. Die Sentiment-Analyse ist in Anwendungen der "Stimme des Kunden" sehr populär geworden.

Big data taxonomies

Taxonomien sind oft für die Textanalyse von entscheidender Bedeutung. Eine -Taxonomie ist eine Methode zur Organisation von Informationen in hierarchischen Beziehungen. Es wird manchmal als eine Art der Organisation von Kategorien bezeichnet. Da eine Taxonomie die Beziehungen zwischen den Begriffen definiert, die ein Unternehmen verwendet, erleichtert es das Auffinden und anschließende Analysieren von Text.

Beispielsweise bietet ein Telekommunikationsdienstanbieter sowohl einen drahtgebundenen als auch einen drahtlosen Dienst an. Innerhalb des drahtlosen Dienstes kann das Unternehmen Mobiltelefone und einen Internetzugang unterstützen. Das Unternehmen kann dann zwei oder mehr Möglichkeiten haben, Mobiltelefondienste zu kategorisieren, wie beispielsweise Pläne und Telefontypen. Die Taxonomie könnte bis zu den Teilen eines Telefons reichen.

Taxonomien können auch Synonyme und alternative Ausdrücke verwenden und erkennen, dass Mobiltelefon, Mobiltelefon und Mobiltelefon alle gleich sind. Diese Taxonomien können sehr komplex sein und lange Zeit in Anspruch nehmen.

Analyse und Extraktionstechniken für Big Data - Dummies

Die Wahl des Herausgebers

Netzwerkgrundlagen: IPv6-Adresse Vereinfachte Notation - Dummies

Netzwerkgrundlagen: IPv6-Adresse Vereinfachte Notation - Dummies

Bei der Arbeit mit IPv6-Adressen kann es viel Zeit in Anspruch nehmen. schreibe deine Adressen - immerhin sind sie 128 Bit lang. Um das Leben einfacher zu machen, gibt es einige Regeln, die Sie verwenden können, um diese Schreibweise zu verdichten: Führende Nullen in der Adresse sind optional. Für einen Adressblock wäre also 0A45 gleich A45, ...

Netzwerkgrundlagen: IP-Netzwerkklassen - Dummies

Netzwerkgrundlagen: IP-Netzwerkklassen - Dummies

Netzwerkadressierungsarchitektur unterteilt den Adressraum für Internet Protocol Version 4 (IPv4 ) in fünf Adressklassen. Jede Klasse, die in den ersten vier Bits der Adresse codiert ist, definiert entweder eine andere Netzwerkgröße, d.h. e. Anzahl der Hosts für Unicast-Adressen (Klassen A, B, C) oder Multicast-Netzwerk (Klasse D). Die fünfte Klasse (E) address ...

Netzwerkgrundlagen: Netzwerkport Übersicht - Dummys

Netzwerkgrundlagen: Netzwerkport Übersicht - Dummys

In TCP / IP- und UDP-Netzwerken ist ein Port ein Endpunkt eine logische Verbindung. Die Portnummer gibt an, um welchen Port es sich handelt. Port 80 wird beispielsweise für HTTP-Datenverkehr verwendet. Wenn Sie einen Befehl wie netstat -n unter Microsoft Windows oder Linux verwenden, sehen Sie eine Auflistung der lokalen Adressen ...

Die Wahl des Herausgebers

Excel-Dashboards: Wie Sie Ihr erstes Makro aufzeichnen - Dummies

Excel-Dashboards: Wie Sie Ihr erstes Makro aufzeichnen - Dummies

Wenn Sie ein Anfänger auf dem Dashboard sind Automatisierung in Excel ist es unwahrscheinlich, dass Sie den VBA-Code (Visual Basic für Applikationen) von Hand schreiben können, um Makros zu erstellen. Ohne vollständige Kenntnis des Objektmodells und der Syntax von Excel wäre das Schreiben des benötigten Codes für die meisten Anfänger unmöglich. Hier können Sie ein Makro aufzeichnen ...

Excel-Formelberechnungsmodi - Dummys

Excel-Formelberechnungsmodi - Dummys

Standardmäßig ist Excel so eingestellt, dass es automatisch neu berechnet wird. Wenn Sie eine der Zellen ändern, auf die in einer bestimmten Formel verwiesen wird, berechnet Excel diese Formel automatisch neu, sodass ein korrektes Ergebnis basierend auf den Änderungen in den Zellbezügen zurückgegeben wird. Wenn die Formel, die neu berechnet wird, auch als Zellenreferenz in anderen verwendet wird ...

Excel Formelfehler - Dummies

Excel Formelfehler - Dummies

Es ist nicht immer glatt, wenn Sie mit Excel-Formeln arbeiten. Manchmal gibt eine Formel einen Fehlerwert anstelle des erwarteten Werts zurück. Excel hilft Ihnen, das Problem zu identifizieren, indem Sie einen von sieben Fehlerwerten zurückgeben: # DIV / 0! , # N / A, #NAME? , #NULL! , #NUM! , #REF! und #WERT! , erklärt in der folgenden Liste: # DIV / 0! : ...

Die Wahl des Herausgebers

Teilen, Weiterverbreiten und Kommentieren von Google+ Posts - Dummies

Teilen, Weiterverbreiten und Kommentieren von Google+ Posts - Dummies

, Wenn Sie mit der Verwendung und Veröffentlichung beginnen Bei Google+ möchten Sie gelegentlich Links und Bilder teilen, die Beiträge anderer freigeben, ihre Beiträge kommentieren und andere in Ihren eigenen Google+ Beiträgen erwähnen. Vielleicht fragen Sie sich auch, wie Sie andere dazu bringen, Ihre eigenen Beiträge öfter zu kommentieren. Teilen von Links und Bildern in Google+ So geben Sie ein ...

Teilen Ihrer Google+ Posts mit bestimmten Personen - Dummies

Teilen Ihrer Google+ Posts mit bestimmten Personen - Dummies

Beiträge auf Google+ sind ganz einfach und können posten Text, Links, Fotos, Videos und sogar Ihren aktuellen Standort. Der schwierigste Teil des Beitrags auf Google+ besteht darin, auszuwählen, wen Sie Ihren Beitrag sehen möchten. Google+ verwendet Ihre Kreise, um festzulegen, wer Ihre Beiträge sehen kann. Kreise sind etwas einfacher als Listen, weil ...

Taggen von Personen in Google+ Fotos - Dummies

Taggen von Personen in Google+ Fotos - Dummies

Sie können Personen in Ihren Kreisen auf jedem Foto auf Google+ markieren. Wenn Sie eine Person in einem Foto taggen, wird diese Person über ihre Google+ Benachrichtigungen benachrichtigt. Sie können dann das Tag entfernen oder genehmigen, und das Foto wird mit dem Tag des Namens dieser Person darin angezeigt. Um jemanden zu markieren, ...