Klassifikation Algorithmen in Data Science - Dummies

Bei Klassifikationsalgorithmen verwenden Sie einen vorhandenen Datensatz und Verwenden Sie das, was Sie wissen, um ein Vorhersagemodell für die Klassifizierung zukünftiger Datenpunkte zu erstellen. Wenn Sie Ihr Dataset und seine bekannten Untermengen verwenden möchten, um ein Modell zur Vorhersage der Kategorisierung zukünftiger Datenpunkte zu erstellen, sollten Sie Klassifikationsalgorithmen verwenden.

Bei der Implementierung der überwachten Klassifizierung sollten Sie bereits die Untermengen Ihrer Daten kennen - diese Untergruppen werden Kategorien genannt. Mithilfe der Klassifizierung können Sie ermitteln, wie gut Ihre Daten in die vordefinierten Kategorien des Datensatzes passen, sodass Sie dann ein Vorhersagemodell für die Klassifizierung künftiger Datenpunkte erstellen können.

Die Abbildung illustriert, wie es aussieht, die Datensätze der Einkommens- und Bildungsdaten der Weltbank nach der Kategorie Kontinent zu klassifizieren.

Sie können sehen, dass in einigen Fällen die Teilmengen, die Sie möglicherweise mit einer Clustering-Technik identifizieren, der Kategorie der Kontinente entsprechen, in anderen Fällen jedoch nicht. Betrachten Sie zum Beispiel das eine asiatische Land in der Mitte der afrikanischen Datenpunkte. Das ist Bhutan. Sie könnten die Daten in diesem Dataset verwenden, um ein Modell zu erstellen, das eine Kontinentkategorie für eingehende Datenpunkte vorhersagen würde.

Aber wenn Sie einen Datenpunkt für ein neues Land einführen, das ähnliche Statistiken wie Bhutan aufweist, dann könnte das neue Land als Teil entweder des asiatischen Kontinents oder des afrikanischen Kontinents eingestuft werden, abhängig wie Sie Ihr Modell definieren.

Stellen Sie sich jetzt eine Situation vor, in der Ihre ursprünglichen Daten Bhutan nicht enthalten, und Sie verwenden das Modell, um Bhutans Kontinent als neuen Datenpunkt vorherzusagen. In diesem Szenario würde das Modell fälschlicherweise voraussagen, dass Bhutan Teil des afrikanischen Kontinents ist.

Dies ist ein Beispiel für Modellüberanpassung - Situationen, in denen ein Modell so eng an sein zugrunde liegendes Dataset angepasst ist, sowie das Rauschen oder zufällige Fehler in diesem Datensatz, dass das Modell als Prädiktor für neue Datenpunkte schlecht abschneidet.

Um eine Überanpassung Ihrer Modelle zu vermeiden, teilen Sie Ihre Daten in ein Trainingsset und ein Testset. Ein typisches Verhältnis besteht darin, 80 Prozent der Daten in das Trainingsset und die verbleibenden 20 Prozent in das Testset zuzuweisen. Erstellen Sie Ihr Modell mit dem Trainingssatz, und verwenden Sie dann das Testset, um das Modell auszuwerten, indem Sie vorgeben, dass die Testsatz-Datenpunkte unbekannt sind. Sie können die Genauigkeit Ihres Modells bewerten, indem Sie die Kategorien, die diesen Testsatzdatenpunkten durch das Modell zugewiesen sind, mit den tatsächlichen Kategorien vergleichen.

Modellübergeneralisierung kann ebenfalls ein Problem sein. Übergeneralisierung ist das Gegenteil von Überanpassung: Es geschieht, wenn ein Datenwissenschaftler versucht, eine Fehlklassifizierung aufgrund von Überanpassung zu vermeiden, indem er ein Modell extrem allgemein macht. Modelle, die zu allgemein sind, weisen schließlich jeder Kategorie ein geringes Maß an Vertrauen zu.

Um die Modellübergeneralisierung zu veranschaulichen, betrachten wir noch einmal die Datensätze der Weltbank für Einkommen und Bildung. Wenn das Modell die Anwesenheit von Bhutan dazu benutzt, jeden neuen Datenpunkt in seiner näheren Umgebung zu bezweifeln, dann landet man mit einem verwaschenen Modell, das alle naheliegenden Punkte als afrikanisch, aber mit einer geringen Wahrscheinlichkeit behandelt. Dieses Modell wäre ein schlechter Vorhersager.

Eine gute Metapher für Überanpassung und Übergeneralisierung kann durch den bekannten Satz illustriert werden: "Wenn es wie eine Ente läuft und wie eine Ente redet, dann ist es eine Ente. "Überanpassung würde diese Phrase in," verwandeln Es ist eine Ente, wenn, und nur wenn, es geht und Quacksalber genau in den Weisen, dass ich persönlich eine Ente beobachtet habe, um zu gehen und zu quaken. Da ich nie beobachtet habe, wie eine australische gefleckte Ente spazieren geht, muss eine australische gefleckte Ente gar keine Ente sein. "

Im Gegensatz dazu würde die Übergeneralisierung sagen:" Wenn es sich auf zwei Beinen bewegt und einen hohen, nasalen Ton ausstrahlt, ist es eine Ente. Deshalb muss Fran Fine, Fran Dreschers Charakter in der amerikanischen Sitcom The Nanny der 1990er Jahre, eine Ente sein. "

Überwachtes maschinelles Lernen - der schicke Begriff für die Klassifikation - ist in Situationen geeignet, in denen die folgenden Eigenschaften zutreffen:

Sie kennen und verstehen den Datensatz, den Sie analysieren.
Die Teilmengen (Kategorien) Ihres Datensatzes sind vorzeitig definiert und werden nicht von den Daten bestimmt.
Sie möchten ein Modell erstellen, das die Daten innerhalb der vordefinierten Kategorien korreliert, damit das Modell die Kategorisierung künftiger Datenpunkte vorhersagen kann.

Beachten Sie bei der Klassifizierung die folgenden Punkte:

Modellvorhersagen sind nur so gut wie die zugrunde liegenden Daten des Modells. Im Datenbeispiel der Weltbank könnte es der Fall sein, dass, wenn andere Faktoren wie Lebenserwartung oder Energieverbrauch pro Kopf dem Modell hinzugefügt würden, seine Vorhersagekraft zunehmen könnte.
Modellvorhersagen sind nur so gut wie die Kategorisierung des zugrunde liegenden Datasets. Was machen Sie beispielsweise mit Ländern wie Russland, die zwei Kontinente umfassen? Unterscheiden Sie Nordafrika von Subsahara-Afrika? Fassen Sie Nordamerika mit Europa zusammen, weil sie ähnliche Eigenschaften haben? Halten Sie Zentralamerika für einen Teil von Nordamerika oder Südamerika?

Es besteht eine ständige Gefahr der Überanpassung und Übergeneralisierung. Zwischen den beiden muss ein glückliches Medium gefunden werden.