Video: #somofo15 Mitschnitt: Martin Szugat - Mit Predictive Analytics neue Trends in Social Data erkennen! 2024
Für Ihr Projekt zur Vorhersageanalyse müssen Sie geeignete Datenquellen identifizieren, Daten aus diesen Quellen zusammenfassen und in einem strukturierten, gut organisierten Format. Diese Aufgaben können sehr anspruchsvoll sein und erfordern wahrscheinlich eine sorgfältige Koordinierung zwischen verschiedenen Datenverwaltern in Ihrer gesamten Organisation.
Sie müssen auch die Variablen auswählen, die Sie analysieren möchten. Dieser Prozess muss Datenbeschränkungen, Projektbeschränkungen und Geschäftsziele berücksichtigen.
Die von Ihnen ausgewählten Variablen müssen eine Vorhersagekraft haben. Außerdem müssen Sie Variablen berücksichtigen, die für Ihr Projekt innerhalb des Budgets und der Zeitrahmen sowohl wertvoll als auch realisierbar sind. Wenn Sie beispielsweise Banktransaktionen bei einer strafrechtlichen Untersuchung analysieren, können die Telefonaufzeichnungen für alle beteiligten Parteien für die Analyse relevant sein, aber den Analysten nicht zugänglich sein.
Erwarten Sie eine beträchtliche Zeit in dieser Phase des Projekts. Datenerfassung, Datenanalyse und der Prozess der Adressierung von Dateninhalten, -qualität und -struktur können zu einer zeitaufwendigen To-Do-Liste führen.
Während des Prozesses der Datenidentifikation hilft es, Ihre Daten und ihre Eigenschaften zu verstehen. Dieses Wissen hilft Ihnen bei der Auswahl des Algorithmus, der zum Erstellen Ihres Modells verwendet werden soll. Zum Beispiel können Zeitreihendaten durch Regressionsalgorithmen analysiert werden; Klassifikationsalgorithmen können verwendet werden, um diskrete Daten zu analysieren.
Die Auswahl der Variablen hängt davon ab, wie gut Sie die Daten verstehen. Seien Sie nicht überrascht, wenn Sie zumindest anfangs Hunderte von Variablen betrachten und bewerten müssen. Glücklicherweise, wenn Sie mit diesen Variablen arbeiten und anfangen, wichtige Einsichten zu gewinnen, beginnen Sie, sie auf ein paar Dutzend zu verkleinern. Erwarten Sie außerdem, dass sich die Variablenauswahl ändert, wenn sich Ihr Verständnis der Daten während des gesamten Projekts ändert.
Es kann nützlich sein, ein Dateninventar zu erstellen, mit dem Sie verfolgen können, was Sie wissen, was Sie nicht wissen und was möglicherweise fehlt. Der Datenbestand sollte eine Auflistung der verschiedenen Datenelemente und aller Attribute enthalten, die in den nachfolgenden Schritten des Prozesses relevant sind.
Sie möchten beispielsweise dokumentieren, ob für einen bestimmten Zeitraum Segmente fehlende Postleitzahlen oder fehlende Datensätze enthalten.
Ihre Ansprechpartner für betriebswirtschaftliche Kenntnisse (auch bekannt als Domain Knowledge Experten ) helfen Ihnen bei der Auswahl der Schlüsselvariablen, die die Ergebnisse Ihres Projekts positiv beeinflussen können. Sie können Ihnen helfen, die Wichtigkeit dieser Variablen zu erklären, sowie wo und wie Sie sie bekommen können, neben anderen wertvollen Beiträgen.