Inhaltsverzeichnis:
Video: Prometheus - Goethe (Analyse und Interpretation) 2024
Im Allgemeinen verwenden Textanalyselösungen für Big Data eine Kombination aus statistischen und Natural Language Processing (NLP) -Techniken, um Informationen aus unstrukturierten Daten zu extrahieren. NLP ist ein weites und komplexes Gebiet, das sich in den letzten 20 Jahren entwickelt hat.
Ein primäres Ziel von NLP ist es, Bedeutung aus Text abzuleiten. Die Verarbeitung natürlicher Sprache verwendet im Allgemeinen sprachliche Konzepte wie grammatikalische Strukturen und Wortarten. Häufig besteht die Idee hinter dieser Art von Analyse darin, zu bestimmen, wer was wann, wo, wie und warum getan hat.
NLP führt eine Analyse von Text auf verschiedenen Ebenen durch:
-
Die lexikalische / morphologische Analyse untersucht die Eigenschaften eines einzelnen Wortes - einschließlich Präfixe, Suffixe, Wurzeln und Wortarten (Substantiv, Verb, Adjektiv und so weiter) - Informationen, die dazu beitragen, zu verstehen, was das Wort im Kontext des bereitgestellten Textes bedeutet. Die lexikalische Analyse hängt von einem Wörterbuch, Thesaurus oder einer Liste von Wörtern ab, die Informationen über diese Wörter bereitstellt.
-
Die syntaktische Analyse benutzt die grammatische Struktur, um den Text zu zerlegen und einzelne Wörter in einen Kontext zu bringen. Hier erweitern Sie Ihren Blick von einem einzigen Wort auf die Phrase oder den ganzen Satz. Dieser Schritt könnte die Beziehung zwischen Wörtern (die Grammatik) darstellen oder nach Folgen von Wörtern suchen, die korrekte Sätze bilden, oder nach Folgen von Zahlen, die Daten oder Geldwerte darstellen.
-
Semantische Analyse bestimmt die möglichen Bedeutungen eines Satzes. Dies kann die Untersuchung der Wortreihenfolge und der Satzstruktur sowie die Eindeutigkeit von Wörtern umfassen, indem die in den Phrasen, Sätzen und Absätzen gefundene Syntax in Beziehung gesetzt wird.
-
Discourse-Level-Analyse versucht, die Bedeutung von Text über die Satzebene hinaus zu bestimmen.
Verstehen der extrahierten Informationen aus Big Data
Bestimmte Techniken, kombiniert mit anderen statistischen oder linguistischen Techniken zur Automatisierung der Markierung und Markierung von Textdokumenten, können die folgenden Arten von Informationen extrahieren:
-
Begriffe: Name für Schlüsselwörter.
-
Entities: Oft genannte named Entities , sind spezifische Beispiele für Abstraktionen. Beispiele sind Namen von Personen, Firmennamen, geografische Standorte, Kontaktinformationen, Daten, Uhrzeiten, Währungen, Titel und Positionen usw. Zum Beispiel kann Textanalysesoftware die Entität Jane Doe als eine Person extrahieren, auf die im analysierten Text Bezug genommen wird. Die Entität 3. März 2007 kann als Datum extrahiert werden usw.
-
Fakten: Fakten, die auch als Beziehungen , bezeichnet werden, geben die who / what / where-Beziehungen zwischen zwei Entitäten an. John Smith ist der Geschäftsführer der Firma Y und Aspirin reduziert Fieber sind Beispiele für Fakten.
-
Ereignisse: Während einige Experten die Begriffe Tatsache , Beziehung , und Ereignis austauschbar verwenden, unterscheiden andere zwischen Ereignissen und Tatsachen, dass Ereignisse normalerweise eine Zeitdimension enthalten und oft dazu führen, dass sich Fakten ändern. Beispiele sind ein Wechsel im Management innerhalb eines Unternehmens oder der Status eines Verkaufsprozesses.
-
Konzepte: Dies sind Sätze von Wörtern und Ausdrücken, die auf eine bestimmte Idee oder ein Thema hinweisen, mit denen der Benutzer zu tun hat. Zum Beispiel kann das Konzept unzufriedener Kunde die Wörter wütend, enttäuscht, und verwirrt und die Begriffe Dienst trennen, nicht zurückrufen. und Geldverschwendung - unter vielen anderen. Somit kann das Konzept unzufriedener Kunde extrahiert werden, ohne dass die Wörter unglücklich oder Kunde im Text erscheinen.
-
Sentiments: Die Sentimentanalyse wird verwendet, um Standpunkte oder Emotionen im zugrunde liegenden Text zu identifizieren. Einige Techniken tun dies, indem sie Text als beispielsweise subjektiv (Meinung) oder objektiv (Tatsache) klassifizieren, wobei maschinelles Lernen oder NLP-Techniken verwendet werden. Die Sentiment-Analyse ist in Anwendungen der "Stimme des Kunden" sehr populär geworden.
Big data taxonomies
Taxonomien sind oft für die Textanalyse von entscheidender Bedeutung. Eine -Taxonomie ist eine Methode zur Organisation von Informationen in hierarchischen Beziehungen. Es wird manchmal als eine Art der Organisation von Kategorien bezeichnet. Da eine Taxonomie die Beziehungen zwischen den Begriffen definiert, die ein Unternehmen verwendet, erleichtert es das Auffinden und anschließende Analysieren von Text.
Beispielsweise bietet ein Telekommunikationsdienstanbieter sowohl einen drahtgebundenen als auch einen drahtlosen Dienst an. Innerhalb des drahtlosen Dienstes kann das Unternehmen Mobiltelefone und einen Internetzugang unterstützen. Das Unternehmen kann dann zwei oder mehr Möglichkeiten haben, Mobiltelefondienste zu kategorisieren, wie beispielsweise Pläne und Telefontypen. Die Taxonomie könnte bis zu den Teilen eines Telefons reichen.
Taxonomien können auch Synonyme und alternative Ausdrücke verwenden und erkennen, dass Mobiltelefon, Mobiltelefon und Mobiltelefon alle gleich sind. Diese Taxonomien können sehr komplex sein und lange Zeit in Anspruch nehmen.