Video: Machine Learning #3 - Grundlagen #2 - Konzept vs Klassifikation vs Regression 2024
Sobald Sie alle notwendigen Werkzeuge und Daten haben, um mit der Erstellung eines Vorhersagemodells zu beginnen, beginnt der Spaß. Im Allgemeinen umfasst das Erstellen eines Lernmodells für Klassifizierungsaufgaben die folgenden Schritte:
-
Laden der Daten.
-
Wählen Sie einen Klassifikator aus.
-
Trainiere das Modell.
-
Visualisieren Sie das Modell.
-
Testen Sie das Modell.
-
Werten Sie das Modell aus.
Sowohl die logistische Regression als auch die SVM-Klassifikationsmodelle (Support Vector Machine) arbeiten mit dem Iris-Datensatz ziemlich gut.
Kelchblattlänge | Kelchblattbreite | Blütenblattlänge | Blütenblattbreite | Zielklasse / Etikett |
---|---|---|---|---|
5. 1 | 3. 5 | 1. 4 | 0. 2 | Setosa (0) |
7. 0 | 3. 2 | 4. 7 | 1. 4 | Versicolor (1) |
6. 3 | 3. 3 | 6. 0 | 2. 5 | Virginica (2) |
Das logistische Regressionsmodell mit dem Parameter C = 1 war in seinen Vorhersagen perfekt, während das SVM-Modell und das logistische Regressionsmodell mit C = 150 nur eine Vorhersage verpassten. In der Tat ist die hohe Genauigkeit beider Modelle das Ergebnis eines kleinen Datensatzes, der Datenpunkte hat, die nahezu linear trennbar sind.
Interessanterweise zeigte das logistische Regressionsmodell mit C = 150 ein besser aussehendes Entscheidungsoberflächendiagramm als das mit C = 1, aber es entwickelte sich nicht besser. Das ist keine so große Sache, wenn man bedenkt, dass das Testset so klein ist. Wenn eine andere zufällige Aufteilung zwischen Trainingssatz und Testset ausgewählt worden wäre, hätten die Ergebnisse leicht anders ausfallen können.
Dies zeigt eine weitere Quelle von Komplexität, die bei der Modellevaluation auftaucht: der Effekt von Stichproben und wie die Auswahl der Trainings- und Testsätze die Ausgabe des Modells beeinflussen kann. Kreuzvalidierungstechniken können dazu beitragen, die Auswirkungen von Stichproben auf die Leistung des Modells zu minimieren.
Für einen größeren Datensatz mit nicht linear trennbaren Daten würden Sie erwarten, dass die Ergebnisse noch stärker abweichen. Darüber hinaus wird die Auswahl des geeigneten Modells aufgrund der Komplexität und Größe der Daten zunehmend schwieriger. Seien Sie bereit, viel Zeit damit zu verbringen, Ihre Parameter zu optimieren, um eine optimale Anpassung zu erreichen.
Wenn Sie prädiktive Modelle erstellen, probieren Sie einige Algorithmen aus und stimmen Sie deren Parameter gründlich ab, bis Sie herausgefunden haben, was für Ihre Daten am besten funktioniert. Vergleichen Sie dann ihre Ausgänge gegeneinander.