Zuhause Persönliche Finanzen Klassifikation Algorithmen in Data Science - Dummies

Klassifikation Algorithmen in Data Science - Dummies

Video: Klassifikation mit dem k-Nächste-Nachbarn Algorithmus | Data Mining Algorithmen 2025

Video: Klassifikation mit dem k-Nächste-Nachbarn Algorithmus | Data Mining Algorithmen 2025
Anonim

Bei Klassifikationsalgorithmen verwenden Sie einen vorhandenen Datensatz und Verwenden Sie das, was Sie wissen, um ein Vorhersagemodell für die Klassifizierung zukünftiger Datenpunkte zu erstellen. Wenn Sie Ihr Dataset und seine bekannten Untermengen verwenden möchten, um ein Modell zur Vorhersage der Kategorisierung zukünftiger Datenpunkte zu erstellen, sollten Sie Klassifikationsalgorithmen verwenden.

Bei der Implementierung der überwachten Klassifizierung sollten Sie bereits die Untermengen Ihrer Daten kennen - diese Untergruppen werden Kategorien genannt. Mithilfe der Klassifizierung können Sie ermitteln, wie gut Ihre Daten in die vordefinierten Kategorien des Datensatzes passen, sodass Sie dann ein Vorhersagemodell für die Klassifizierung künftiger Datenpunkte erstellen können.

Die Abbildung illustriert, wie es aussieht, die Datensätze der Einkommens- und Bildungsdaten der Weltbank nach der Kategorie Kontinent zu klassifizieren.

Sie können sehen, dass in einigen Fällen die Teilmengen, die Sie möglicherweise mit einer Clustering-Technik identifizieren, der Kategorie der Kontinente entsprechen, in anderen Fällen jedoch nicht. Betrachten Sie zum Beispiel das eine asiatische Land in der Mitte der afrikanischen Datenpunkte. Das ist Bhutan. Sie könnten die Daten in diesem Dataset verwenden, um ein Modell zu erstellen, das eine Kontinentkategorie für eingehende Datenpunkte vorhersagen würde.

Aber wenn Sie einen Datenpunkt für ein neues Land einführen, das ähnliche Statistiken wie Bhutan aufweist, dann könnte das neue Land als Teil entweder des asiatischen Kontinents oder des afrikanischen Kontinents eingestuft werden, abhängig wie Sie Ihr Modell definieren.

Stellen Sie sich jetzt eine Situation vor, in der Ihre ursprünglichen Daten Bhutan nicht enthalten, und Sie verwenden das Modell, um Bhutans Kontinent als neuen Datenpunkt vorherzusagen. In diesem Szenario würde das Modell fälschlicherweise voraussagen, dass Bhutan Teil des afrikanischen Kontinents ist.

Dies ist ein Beispiel für Modellüberanpassung - Situationen, in denen ein Modell so eng an sein zugrunde liegendes Dataset angepasst ist, sowie das Rauschen oder zufällige Fehler in diesem Datensatz, dass das Modell als Prädiktor für neue Datenpunkte schlecht abschneidet.

Um eine Überanpassung Ihrer Modelle zu vermeiden, teilen Sie Ihre Daten in ein Trainingsset und ein Testset. Ein typisches Verhältnis besteht darin, 80 Prozent der Daten in das Trainingsset und die verbleibenden 20 Prozent in das Testset zuzuweisen. Erstellen Sie Ihr Modell mit dem Trainingssatz, und verwenden Sie dann das Testset, um das Modell auszuwerten, indem Sie vorgeben, dass die Testsatz-Datenpunkte unbekannt sind. Sie können die Genauigkeit Ihres Modells bewerten, indem Sie die Kategorien, die diesen Testsatzdatenpunkten durch das Modell zugewiesen sind, mit den tatsächlichen Kategorien vergleichen.

Modellübergeneralisierung kann ebenfalls ein Problem sein. Übergeneralisierung ist das Gegenteil von Überanpassung: Es geschieht, wenn ein Datenwissenschaftler versucht, eine Fehlklassifizierung aufgrund von Überanpassung zu vermeiden, indem er ein Modell extrem allgemein macht. Modelle, die zu allgemein sind, weisen schließlich jeder Kategorie ein geringes Maß an Vertrauen zu.

Um die Modellübergeneralisierung zu veranschaulichen, betrachten wir noch einmal die Datensätze der Weltbank für Einkommen und Bildung. Wenn das Modell die Anwesenheit von Bhutan dazu benutzt, jeden neuen Datenpunkt in seiner näheren Umgebung zu bezweifeln, dann landet man mit einem verwaschenen Modell, das alle naheliegenden Punkte als afrikanisch, aber mit einer geringen Wahrscheinlichkeit behandelt. Dieses Modell wäre ein schlechter Vorhersager.

Eine gute Metapher für Überanpassung und Übergeneralisierung kann durch den bekannten Satz illustriert werden: "Wenn es wie eine Ente läuft und wie eine Ente redet, dann ist es eine Ente. "Überanpassung würde diese Phrase in," verwandeln Es ist eine Ente, wenn, und nur wenn, es geht und Quacksalber genau in den Weisen, dass ich persönlich eine Ente beobachtet habe, um zu gehen und zu quaken. Da ich nie beobachtet habe, wie eine australische gefleckte Ente spazieren geht, muss eine australische gefleckte Ente gar keine Ente sein. "

Im Gegensatz dazu würde die Übergeneralisierung sagen:" Wenn es sich auf zwei Beinen bewegt und einen hohen, nasalen Ton ausstrahlt, ist es eine Ente. Deshalb muss Fran Fine, Fran Dreschers Charakter in der amerikanischen Sitcom The Nanny der 1990er Jahre, eine Ente sein. "

Überwachtes maschinelles Lernen - der schicke Begriff für die Klassifikation - ist in Situationen geeignet, in denen die folgenden Eigenschaften zutreffen:

  • Sie kennen und verstehen den Datensatz, den Sie analysieren.

  • Die Teilmengen (Kategorien) Ihres Datensatzes sind vorzeitig definiert und werden nicht von den Daten bestimmt.

  • Sie möchten ein Modell erstellen, das die Daten innerhalb der vordefinierten Kategorien korreliert, damit das Modell die Kategorisierung künftiger Datenpunkte vorhersagen kann.

Beachten Sie bei der Klassifizierung die folgenden Punkte:

  • Modellvorhersagen sind nur so gut wie die zugrunde liegenden Daten des Modells. Im Datenbeispiel der Weltbank könnte es der Fall sein, dass, wenn andere Faktoren wie Lebenserwartung oder Energieverbrauch pro Kopf dem Modell hinzugefügt würden, seine Vorhersagekraft zunehmen könnte.

  • Modellvorhersagen sind nur so gut wie die Kategorisierung des zugrunde liegenden Datasets. Was machen Sie beispielsweise mit Ländern wie Russland, die zwei Kontinente umfassen? Unterscheiden Sie Nordafrika von Subsahara-Afrika? Fassen Sie Nordamerika mit Europa zusammen, weil sie ähnliche Eigenschaften haben? Halten Sie Zentralamerika für einen Teil von Nordamerika oder Südamerika?

Es besteht eine ständige Gefahr der Überanpassung und Übergeneralisierung. Zwischen den beiden muss ein glückliches Medium gefunden werden.

Klassifikation Algorithmen in Data Science - Dummies

Die Wahl des Herausgebers

Wie man die Socialcast Mobile App benutzt - dummies

Wie man die Socialcast Mobile App benutzt - dummies

Sogar die stoischste Anwendung wie Microsoft Excel hat ein begleitendes Smartphone-App, natürlich hat Socialcast auch eine. Wenn es so wäre, wäre es nicht wirklich eine Ausrede zu sagen, dass Socialcast nicht sehr sozial wäre, wenn du es nicht mit in die große Welt außerhalb deiner Zelle mitnehmen könntest. Die mobile App ...

Wie man das App Verzeichnis von Yammer benutzt - dummies

Wie man das App Verzeichnis von Yammer benutzt - dummies

Sie haben vielleicht gehört: "Es gibt eine App dafür. "Nun, das ist der Fall bei Yammer, der als einzige Ressource für die Vernetzung am Arbeitsplatz funktioniert. Aber Yammer bietet Ihnen auch eine Menge Apps, mit denen Sie Ihr Arbeitsleben noch einfacher gestalten können. Es gibt zwei Möglichkeiten, auf das App-Verzeichnis zuzugreifen: Option ...

So ​​verwenden Sie die Yammer-Analysetools - Dummies

So ​​verwenden Sie die Yammer-Analysetools - Dummies

Yammer rühmt sich damit als "führendes soziales Unternehmensnetzwerk für Unternehmen" um die Arbeit intelligenter und schneller zu erledigen. "Woher weißt du, ob das wahr ist? Ein guter Weg, um zu sehen, wie es für Sie funktioniert, ist die Analyse von Yammer. Wie greifen Sie auf diese großartigen Tools zu? Es ist einfach. Log ...

Die Wahl des Herausgebers

Die Evolution von Distributed Computing für Big Data - Dummies

Die Evolution von Distributed Computing für Big Data - Dummies

Hinter allen wichtigen Trends des letzten Jahrzehnts, einschließlich Serviceorientierung, Cloud Computing, Virtualisierung und Big Data, ist eine grundlegende Technologie namens Distributed Computing. Einfach gesagt, ohne die Verteilung von Datenverarbeitung wäre keiner dieser Fortschritte möglich. Distributed Computing ist eine Technik, mit der einzelne Computer über geografische Gebiete hinweg miteinander vernetzt werden können, so als ob ...

Drei Anbieter mit Data Mining-Produkten - Dummies

Drei Anbieter mit Data Mining-Produkten - Dummies

Es gibt mehrere Anbieter, die Data-Mining-Produkte verkaufen, die Sie vielleicht in Betracht ziehen möchten. Verwenden Sie mit Ihrem Data Warehouse. Hier sind drei, die eine Überlegung wert sind. Microsoft Microsoft hat das serverseitige Data Mining mit Microsoft SQL Server 2005 eingeführt. Obwohl es nicht so ausgereift und ausgeklügelt wie SAS und SPSS ist, hat Microsoft im Laufe der Zeit seine Fähigkeit bewiesen ...

Grundlagen der Big-Data-Integration - Dummies

Grundlagen der Big-Data-Integration - Dummies

Die fundamentalen Elemente der Big-Data-Plattform verwalten Daten auf neue Weise verglichen mit der traditionellen relationalen Datenbank. Dies liegt daran, dass Skalierbarkeit und hohe Leistung erforderlich sind, um sowohl strukturierte als auch unstrukturierte Daten zu verwalten. Komponenten des Big-Data-Ökosystems von Hadoop bis NoSQL DB, MongoDB, Cassandra, ...

Die Wahl des Herausgebers

So ​​stellen Sie eine Verbindung zu Spotify Mobile her - Dummies

So ​​stellen Sie eine Verbindung zu Spotify Mobile her - Dummies

Die meisten modernen Smartphones sind Wi-Fi-fähig. In ein lokales Netzwerk können Sie Spotify-Tracks mithilfe von Wi-Fi auf Ihr Telefon streamen. Sie können Spotify Mobile zu Hause und über Wi-Fi-Netzwerke in Hotels und Cafés problemlos nutzen - Sie müssen nur sicherstellen, dass Sie angemeldet und verbunden sind. ...

Wie Spotify funktioniert - Dummies

Wie Spotify funktioniert - Dummies

Wie Spotify funktioniert, kann Auswirkungen auf den Festplattenspeicher Ihres Computers haben. Internetverbindung. Spotify funktioniert anders als viele andere Online-Musikdienste, weil es auf mehrere Arten angewiesen ist, um Ihnen reibungslos Musik ohne Verzögerungen zu liefern. In Computing-Sprechen, das Maß der Verzögerung zwischen Anfordern eines Songs und Hören es ...

So ​​erreichen Sie Spotify Support - Dummies

So ​​erreichen Sie Spotify Support - Dummies

Es kann vorkommen, dass Sie eine kleine Hilfe beim Navigieren und Verwenden von Spotify benötigen von deinen Spotify Freunden. Sie können jederzeit Support @ spotify per E-Mail senden. com mit Ihrer Frage oder melden Sie sich bei Twitter an und senden Sie einen Tweet an @spotify. Stellen Sie sicher, dass Sie alle Informationen einschließen, die dem Support-Team helfen könnten, einschließlich Ihres Benutzernamens, damit sie ...