Vorbereiten von Daten für ein Predictive Analysis-Modell - Dummies

Video: Data Preparation in SAP Analytics Cloud 2025

Wenn Sie die Ziele des Modells für die vorausschauende Analyse definiert haben, müssen Sie im nächsten Schritt die Daten ermitteln und vorbereiten, die Sie zum Erstellen Ihres Modells verwenden. Die allgemeine Reihenfolge der Schritte sieht wie folgt aus:

Identifizieren Sie Ihre Datenquellen.

Daten können in verschiedenen Formaten vorliegen oder sich an verschiedenen Orten befinden.
Identifizieren Sie, wie Sie auf diese Daten zugreifen werden.

Manchmal müssen Sie Daten von Drittanbietern oder Daten anderer Abteilungen in Ihrer Organisation usw. erwerben.
Überlegen Sie, welche Variablen in Ihre Analyse einbezogen werden sollen.

Ein Standardansatz besteht darin, mit einem großen Bereich von Variablen zu beginnen und diejenigen zu eliminieren, die keine prädiktiven Werte für das Modell bieten.
Bestimmen Sie, ob abgeleitete Variablen verwendet werden sollen.

In vielen Fällen hätte eine abgeleitete Variable (wie z. B. das für die Analyse von Aktienkursen verwendete Preis-Leistungsverhältnis) eine größere direkte Auswirkung auf das Modell als die Rohvariable.
Erkunden Sie die Qualität Ihrer Daten, um deren Zustand und Einschränkungen zu verstehen.

Die Genauigkeit der Vorhersagen des Modells hängt direkt mit den von Ihnen ausgewählten Variablen und der Qualität Ihrer Daten zusammen. Sie möchten an dieser Stelle einige datenbezogene Fragen beantworten:
- Sind die Daten vollständig?
- Hat es irgendwelche Ausreißer?
- Müssen die Daten bereinigt werden?
- Müssen Sie fehlende Werte ausfüllen, behalten, wie sie sind, oder sie ganz löschen?

Wenn Sie Ihre Daten und ihre Eigenschaften verstehen, können Sie den Algorithmus auswählen, der beim Erstellen Ihres Modells am nützlichsten ist. Zum Beispiel:

Regressionsalgorithmen können verwendet werden, um Zeitreihendaten zu analysieren.
Klassifikationsalgorithmen können verwendet werden, um diskrete Daten zu analysieren.
Assoziationsalgorithmen können für Daten mit korrelierten Attributen verwendet werden.

Der zum Trainieren und Testen des Modells verwendete Datensatz muss relevante Geschäftsinformationen enthalten, um das Problem zu lösen, das Sie lösen möchten. Wenn es Ihr Ziel ist (zum Beispiel) zu bestimmen, welcher Kunde abwanderungsbereit ist, muss der Datensatz, den Sie auswählen, Informationen über Kunden enthalten, die in der Vergangenheit gewirkt haben, sowie Kunden, die dies nicht getan haben.

Einige Modelle, die erstellt wurden, um Daten zu extrahieren und die zugrundeliegenden Beziehungen zu verstehen - beispielsweise solche, die mit Clustering-Algorithmen erstellt wurden - müssen kein bestimmtes Endergebnis berücksichtigen.

Beim Umgang mit Daten entstehen beim Erstellen Ihres Modells zwei Probleme: Unteranpassung und Überanpassung.

Unterlegen

Unter Anpassung ist, wenn Ihr Modell keine Beziehungen in Ihren Daten erkennt.Dies ist normalerweise ein Hinweis darauf, dass wesentliche Variablen - solche mit Vorhersagekraft - nicht in Ihre Analyse einbezogen wurden. Zum Beispiel berücksichtigt eine Aktienanalyse, die nur Daten aus einem Bullenmarkt enthält (bei denen die Gesamtaktienkurse steigen) keine Krisen oder Blasen, die größere Korrekturen an der Gesamtperformance der Aktien bewirken können.

Wenn Daten, die sich sowohl auf Bullen als auch auf Baissemärkte (bei fallenden Gesamtaktienkursen) beziehen, nicht berücksichtigt werden, kann das Modell die bestmögliche Portfolioauswahl nicht erstellen.

Überanpassung

Überanpassung ist, wenn Ihr Modell Daten enthält, die keine Vorhersagekraft haben, aber nur für den Datensatz, den Sie analysieren, spezifisch ist. Rauschen - zufällige Variationen im Dataset - kann in das Modell einfließen, so dass das Ausführen des Modells in einem anderen Datensatz zu einem deutlichen Rückgang der Vorhersageleistung und -genauigkeit des Modells führt. Die beigefügte Seitenleiste enthält ein Beispiel.

Wenn Ihr Modell für ein bestimmtes Dataset fehlerfrei ist und nur eine Underperformance aufweist, wenn Sie es in einem anderen Dataset testen, sollten Sie eine Überanpassung vermuten.