Zuhause Persönliche Finanzen Klassifikation Algorithmen in Data Science - Dummies

Klassifikation Algorithmen in Data Science - Dummies

Video: Klassifikation mit dem k-Nächste-Nachbarn Algorithmus | Data Mining Algorithmen 2024

Video: Klassifikation mit dem k-Nächste-Nachbarn Algorithmus | Data Mining Algorithmen 2024
Anonim

Bei Klassifikationsalgorithmen verwenden Sie einen vorhandenen Datensatz und Verwenden Sie das, was Sie wissen, um ein Vorhersagemodell für die Klassifizierung zukünftiger Datenpunkte zu erstellen. Wenn Sie Ihr Dataset und seine bekannten Untermengen verwenden möchten, um ein Modell zur Vorhersage der Kategorisierung zukünftiger Datenpunkte zu erstellen, sollten Sie Klassifikationsalgorithmen verwenden.

Bei der Implementierung der überwachten Klassifizierung sollten Sie bereits die Untermengen Ihrer Daten kennen - diese Untergruppen werden Kategorien genannt. Mithilfe der Klassifizierung können Sie ermitteln, wie gut Ihre Daten in die vordefinierten Kategorien des Datensatzes passen, sodass Sie dann ein Vorhersagemodell für die Klassifizierung künftiger Datenpunkte erstellen können.

Die Abbildung illustriert, wie es aussieht, die Datensätze der Einkommens- und Bildungsdaten der Weltbank nach der Kategorie Kontinent zu klassifizieren.

Sie können sehen, dass in einigen Fällen die Teilmengen, die Sie möglicherweise mit einer Clustering-Technik identifizieren, der Kategorie der Kontinente entsprechen, in anderen Fällen jedoch nicht. Betrachten Sie zum Beispiel das eine asiatische Land in der Mitte der afrikanischen Datenpunkte. Das ist Bhutan. Sie könnten die Daten in diesem Dataset verwenden, um ein Modell zu erstellen, das eine Kontinentkategorie für eingehende Datenpunkte vorhersagen würde.

Aber wenn Sie einen Datenpunkt für ein neues Land einführen, das ähnliche Statistiken wie Bhutan aufweist, dann könnte das neue Land als Teil entweder des asiatischen Kontinents oder des afrikanischen Kontinents eingestuft werden, abhängig wie Sie Ihr Modell definieren.

Stellen Sie sich jetzt eine Situation vor, in der Ihre ursprünglichen Daten Bhutan nicht enthalten, und Sie verwenden das Modell, um Bhutans Kontinent als neuen Datenpunkt vorherzusagen. In diesem Szenario würde das Modell fälschlicherweise voraussagen, dass Bhutan Teil des afrikanischen Kontinents ist.

Dies ist ein Beispiel für Modellüberanpassung - Situationen, in denen ein Modell so eng an sein zugrunde liegendes Dataset angepasst ist, sowie das Rauschen oder zufällige Fehler in diesem Datensatz, dass das Modell als Prädiktor für neue Datenpunkte schlecht abschneidet.

Um eine Überanpassung Ihrer Modelle zu vermeiden, teilen Sie Ihre Daten in ein Trainingsset und ein Testset. Ein typisches Verhältnis besteht darin, 80 Prozent der Daten in das Trainingsset und die verbleibenden 20 Prozent in das Testset zuzuweisen. Erstellen Sie Ihr Modell mit dem Trainingssatz, und verwenden Sie dann das Testset, um das Modell auszuwerten, indem Sie vorgeben, dass die Testsatz-Datenpunkte unbekannt sind. Sie können die Genauigkeit Ihres Modells bewerten, indem Sie die Kategorien, die diesen Testsatzdatenpunkten durch das Modell zugewiesen sind, mit den tatsächlichen Kategorien vergleichen.

Modellübergeneralisierung kann ebenfalls ein Problem sein. Übergeneralisierung ist das Gegenteil von Überanpassung: Es geschieht, wenn ein Datenwissenschaftler versucht, eine Fehlklassifizierung aufgrund von Überanpassung zu vermeiden, indem er ein Modell extrem allgemein macht. Modelle, die zu allgemein sind, weisen schließlich jeder Kategorie ein geringes Maß an Vertrauen zu.

Um die Modellübergeneralisierung zu veranschaulichen, betrachten wir noch einmal die Datensätze der Weltbank für Einkommen und Bildung. Wenn das Modell die Anwesenheit von Bhutan dazu benutzt, jeden neuen Datenpunkt in seiner näheren Umgebung zu bezweifeln, dann landet man mit einem verwaschenen Modell, das alle naheliegenden Punkte als afrikanisch, aber mit einer geringen Wahrscheinlichkeit behandelt. Dieses Modell wäre ein schlechter Vorhersager.

Eine gute Metapher für Überanpassung und Übergeneralisierung kann durch den bekannten Satz illustriert werden: "Wenn es wie eine Ente läuft und wie eine Ente redet, dann ist es eine Ente. "Überanpassung würde diese Phrase in," verwandeln Es ist eine Ente, wenn, und nur wenn, es geht und Quacksalber genau in den Weisen, dass ich persönlich eine Ente beobachtet habe, um zu gehen und zu quaken. Da ich nie beobachtet habe, wie eine australische gefleckte Ente spazieren geht, muss eine australische gefleckte Ente gar keine Ente sein. "

Im Gegensatz dazu würde die Übergeneralisierung sagen:" Wenn es sich auf zwei Beinen bewegt und einen hohen, nasalen Ton ausstrahlt, ist es eine Ente. Deshalb muss Fran Fine, Fran Dreschers Charakter in der amerikanischen Sitcom The Nanny der 1990er Jahre, eine Ente sein. "

Überwachtes maschinelles Lernen - der schicke Begriff für die Klassifikation - ist in Situationen geeignet, in denen die folgenden Eigenschaften zutreffen:

  • Sie kennen und verstehen den Datensatz, den Sie analysieren.

  • Die Teilmengen (Kategorien) Ihres Datensatzes sind vorzeitig definiert und werden nicht von den Daten bestimmt.

  • Sie möchten ein Modell erstellen, das die Daten innerhalb der vordefinierten Kategorien korreliert, damit das Modell die Kategorisierung künftiger Datenpunkte vorhersagen kann.

Beachten Sie bei der Klassifizierung die folgenden Punkte:

  • Modellvorhersagen sind nur so gut wie die zugrunde liegenden Daten des Modells. Im Datenbeispiel der Weltbank könnte es der Fall sein, dass, wenn andere Faktoren wie Lebenserwartung oder Energieverbrauch pro Kopf dem Modell hinzugefügt würden, seine Vorhersagekraft zunehmen könnte.

  • Modellvorhersagen sind nur so gut wie die Kategorisierung des zugrunde liegenden Datasets. Was machen Sie beispielsweise mit Ländern wie Russland, die zwei Kontinente umfassen? Unterscheiden Sie Nordafrika von Subsahara-Afrika? Fassen Sie Nordamerika mit Europa zusammen, weil sie ähnliche Eigenschaften haben? Halten Sie Zentralamerika für einen Teil von Nordamerika oder Südamerika?

Es besteht eine ständige Gefahr der Überanpassung und Übergeneralisierung. Zwischen den beiden muss ein glückliches Medium gefunden werden.

Klassifikation Algorithmen in Data Science - Dummies

Die Wahl des Herausgebers

Netzwerkgrundlagen: IPv6-Adresse Vereinfachte Notation - Dummies

Netzwerkgrundlagen: IPv6-Adresse Vereinfachte Notation - Dummies

Bei der Arbeit mit IPv6-Adressen kann es viel Zeit in Anspruch nehmen. schreibe deine Adressen - immerhin sind sie 128 Bit lang. Um das Leben einfacher zu machen, gibt es einige Regeln, die Sie verwenden können, um diese Schreibweise zu verdichten: Führende Nullen in der Adresse sind optional. Für einen Adressblock wäre also 0A45 gleich A45, ...

Netzwerkgrundlagen: IP-Netzwerkklassen - Dummies

Netzwerkgrundlagen: IP-Netzwerkklassen - Dummies

Netzwerkadressierungsarchitektur unterteilt den Adressraum für Internet Protocol Version 4 (IPv4 ) in fünf Adressklassen. Jede Klasse, die in den ersten vier Bits der Adresse codiert ist, definiert entweder eine andere Netzwerkgröße, d.h. e. Anzahl der Hosts für Unicast-Adressen (Klassen A, B, C) oder Multicast-Netzwerk (Klasse D). Die fünfte Klasse (E) address ...

Netzwerkgrundlagen: Netzwerkport Übersicht - Dummys

Netzwerkgrundlagen: Netzwerkport Übersicht - Dummys

In TCP / IP- und UDP-Netzwerken ist ein Port ein Endpunkt eine logische Verbindung. Die Portnummer gibt an, um welchen Port es sich handelt. Port 80 wird beispielsweise für HTTP-Datenverkehr verwendet. Wenn Sie einen Befehl wie netstat -n unter Microsoft Windows oder Linux verwenden, sehen Sie eine Auflistung der lokalen Adressen ...

Die Wahl des Herausgebers

Excel-Dashboards: Wie Sie Ihr erstes Makro aufzeichnen - Dummies

Excel-Dashboards: Wie Sie Ihr erstes Makro aufzeichnen - Dummies

Wenn Sie ein Anfänger auf dem Dashboard sind Automatisierung in Excel ist es unwahrscheinlich, dass Sie den VBA-Code (Visual Basic für Applikationen) von Hand schreiben können, um Makros zu erstellen. Ohne vollständige Kenntnis des Objektmodells und der Syntax von Excel wäre das Schreiben des benötigten Codes für die meisten Anfänger unmöglich. Hier können Sie ein Makro aufzeichnen ...

Excel-Formelberechnungsmodi - Dummys

Excel-Formelberechnungsmodi - Dummys

Standardmäßig ist Excel so eingestellt, dass es automatisch neu berechnet wird. Wenn Sie eine der Zellen ändern, auf die in einer bestimmten Formel verwiesen wird, berechnet Excel diese Formel automatisch neu, sodass ein korrektes Ergebnis basierend auf den Änderungen in den Zellbezügen zurückgegeben wird. Wenn die Formel, die neu berechnet wird, auch als Zellenreferenz in anderen verwendet wird ...

Excel Formelfehler - Dummies

Excel Formelfehler - Dummies

Es ist nicht immer glatt, wenn Sie mit Excel-Formeln arbeiten. Manchmal gibt eine Formel einen Fehlerwert anstelle des erwarteten Werts zurück. Excel hilft Ihnen, das Problem zu identifizieren, indem Sie einen von sieben Fehlerwerten zurückgeben: # DIV / 0! , # N / A, #NAME? , #NULL! , #NUM! , #REF! und #WERT! , erklärt in der folgenden Liste: # DIV / 0! : ...

Die Wahl des Herausgebers

Teilen, Weiterverbreiten und Kommentieren von Google+ Posts - Dummies

Teilen, Weiterverbreiten und Kommentieren von Google+ Posts - Dummies

, Wenn Sie mit der Verwendung und Veröffentlichung beginnen Bei Google+ möchten Sie gelegentlich Links und Bilder teilen, die Beiträge anderer freigeben, ihre Beiträge kommentieren und andere in Ihren eigenen Google+ Beiträgen erwähnen. Vielleicht fragen Sie sich auch, wie Sie andere dazu bringen, Ihre eigenen Beiträge öfter zu kommentieren. Teilen von Links und Bildern in Google+ So geben Sie ein ...

Teilen Ihrer Google+ Posts mit bestimmten Personen - Dummies

Teilen Ihrer Google+ Posts mit bestimmten Personen - Dummies

Beiträge auf Google+ sind ganz einfach und können posten Text, Links, Fotos, Videos und sogar Ihren aktuellen Standort. Der schwierigste Teil des Beitrags auf Google+ besteht darin, auszuwählen, wen Sie Ihren Beitrag sehen möchten. Google+ verwendet Ihre Kreise, um festzulegen, wer Ihre Beiträge sehen kann. Kreise sind etwas einfacher als Listen, weil ...

Taggen von Personen in Google+ Fotos - Dummies

Taggen von Personen in Google+ Fotos - Dummies

Sie können Personen in Ihren Kreisen auf jedem Foto auf Google+ markieren. Wenn Sie eine Person in einem Foto taggen, wird diese Person über ihre Google+ Benachrichtigungen benachrichtigt. Sie können dann das Tag entfernen oder genehmigen, und das Foto wird mit dem Tag des Namens dieser Person darin angezeigt. Um jemanden zu markieren, ...