Zuhause Persönliche Finanzen Klassifikation Algorithmen in Data Science - Dummies

Klassifikation Algorithmen in Data Science - Dummies

Video: Klassifikation mit dem k-Nächste-Nachbarn Algorithmus | Data Mining Algorithmen 2025

Video: Klassifikation mit dem k-Nächste-Nachbarn Algorithmus | Data Mining Algorithmen 2025
Anonim

Bei Klassifikationsalgorithmen verwenden Sie einen vorhandenen Datensatz und Verwenden Sie das, was Sie wissen, um ein Vorhersagemodell für die Klassifizierung zukünftiger Datenpunkte zu erstellen. Wenn Sie Ihr Dataset und seine bekannten Untermengen verwenden möchten, um ein Modell zur Vorhersage der Kategorisierung zukünftiger Datenpunkte zu erstellen, sollten Sie Klassifikationsalgorithmen verwenden.

Bei der Implementierung der überwachten Klassifizierung sollten Sie bereits die Untermengen Ihrer Daten kennen - diese Untergruppen werden Kategorien genannt. Mithilfe der Klassifizierung können Sie ermitteln, wie gut Ihre Daten in die vordefinierten Kategorien des Datensatzes passen, sodass Sie dann ein Vorhersagemodell für die Klassifizierung künftiger Datenpunkte erstellen können.

Die Abbildung illustriert, wie es aussieht, die Datensätze der Einkommens- und Bildungsdaten der Weltbank nach der Kategorie Kontinent zu klassifizieren.

Sie können sehen, dass in einigen Fällen die Teilmengen, die Sie möglicherweise mit einer Clustering-Technik identifizieren, der Kategorie der Kontinente entsprechen, in anderen Fällen jedoch nicht. Betrachten Sie zum Beispiel das eine asiatische Land in der Mitte der afrikanischen Datenpunkte. Das ist Bhutan. Sie könnten die Daten in diesem Dataset verwenden, um ein Modell zu erstellen, das eine Kontinentkategorie für eingehende Datenpunkte vorhersagen würde.

Aber wenn Sie einen Datenpunkt für ein neues Land einführen, das ähnliche Statistiken wie Bhutan aufweist, dann könnte das neue Land als Teil entweder des asiatischen Kontinents oder des afrikanischen Kontinents eingestuft werden, abhängig wie Sie Ihr Modell definieren.

Stellen Sie sich jetzt eine Situation vor, in der Ihre ursprünglichen Daten Bhutan nicht enthalten, und Sie verwenden das Modell, um Bhutans Kontinent als neuen Datenpunkt vorherzusagen. In diesem Szenario würde das Modell fälschlicherweise voraussagen, dass Bhutan Teil des afrikanischen Kontinents ist.

Dies ist ein Beispiel für Modellüberanpassung - Situationen, in denen ein Modell so eng an sein zugrunde liegendes Dataset angepasst ist, sowie das Rauschen oder zufällige Fehler in diesem Datensatz, dass das Modell als Prädiktor für neue Datenpunkte schlecht abschneidet.

Um eine Überanpassung Ihrer Modelle zu vermeiden, teilen Sie Ihre Daten in ein Trainingsset und ein Testset. Ein typisches Verhältnis besteht darin, 80 Prozent der Daten in das Trainingsset und die verbleibenden 20 Prozent in das Testset zuzuweisen. Erstellen Sie Ihr Modell mit dem Trainingssatz, und verwenden Sie dann das Testset, um das Modell auszuwerten, indem Sie vorgeben, dass die Testsatz-Datenpunkte unbekannt sind. Sie können die Genauigkeit Ihres Modells bewerten, indem Sie die Kategorien, die diesen Testsatzdatenpunkten durch das Modell zugewiesen sind, mit den tatsächlichen Kategorien vergleichen.

Modellübergeneralisierung kann ebenfalls ein Problem sein. Übergeneralisierung ist das Gegenteil von Überanpassung: Es geschieht, wenn ein Datenwissenschaftler versucht, eine Fehlklassifizierung aufgrund von Überanpassung zu vermeiden, indem er ein Modell extrem allgemein macht. Modelle, die zu allgemein sind, weisen schließlich jeder Kategorie ein geringes Maß an Vertrauen zu.

Um die Modellübergeneralisierung zu veranschaulichen, betrachten wir noch einmal die Datensätze der Weltbank für Einkommen und Bildung. Wenn das Modell die Anwesenheit von Bhutan dazu benutzt, jeden neuen Datenpunkt in seiner näheren Umgebung zu bezweifeln, dann landet man mit einem verwaschenen Modell, das alle naheliegenden Punkte als afrikanisch, aber mit einer geringen Wahrscheinlichkeit behandelt. Dieses Modell wäre ein schlechter Vorhersager.

Eine gute Metapher für Überanpassung und Übergeneralisierung kann durch den bekannten Satz illustriert werden: "Wenn es wie eine Ente läuft und wie eine Ente redet, dann ist es eine Ente. "Überanpassung würde diese Phrase in," verwandeln Es ist eine Ente, wenn, und nur wenn, es geht und Quacksalber genau in den Weisen, dass ich persönlich eine Ente beobachtet habe, um zu gehen und zu quaken. Da ich nie beobachtet habe, wie eine australische gefleckte Ente spazieren geht, muss eine australische gefleckte Ente gar keine Ente sein. "

Im Gegensatz dazu würde die Übergeneralisierung sagen:" Wenn es sich auf zwei Beinen bewegt und einen hohen, nasalen Ton ausstrahlt, ist es eine Ente. Deshalb muss Fran Fine, Fran Dreschers Charakter in der amerikanischen Sitcom The Nanny der 1990er Jahre, eine Ente sein. "

Überwachtes maschinelles Lernen - der schicke Begriff für die Klassifikation - ist in Situationen geeignet, in denen die folgenden Eigenschaften zutreffen:

  • Sie kennen und verstehen den Datensatz, den Sie analysieren.

  • Die Teilmengen (Kategorien) Ihres Datensatzes sind vorzeitig definiert und werden nicht von den Daten bestimmt.

  • Sie möchten ein Modell erstellen, das die Daten innerhalb der vordefinierten Kategorien korreliert, damit das Modell die Kategorisierung künftiger Datenpunkte vorhersagen kann.

Beachten Sie bei der Klassifizierung die folgenden Punkte:

  • Modellvorhersagen sind nur so gut wie die zugrunde liegenden Daten des Modells. Im Datenbeispiel der Weltbank könnte es der Fall sein, dass, wenn andere Faktoren wie Lebenserwartung oder Energieverbrauch pro Kopf dem Modell hinzugefügt würden, seine Vorhersagekraft zunehmen könnte.

  • Modellvorhersagen sind nur so gut wie die Kategorisierung des zugrunde liegenden Datasets. Was machen Sie beispielsweise mit Ländern wie Russland, die zwei Kontinente umfassen? Unterscheiden Sie Nordafrika von Subsahara-Afrika? Fassen Sie Nordamerika mit Europa zusammen, weil sie ähnliche Eigenschaften haben? Halten Sie Zentralamerika für einen Teil von Nordamerika oder Südamerika?

Es besteht eine ständige Gefahr der Überanpassung und Übergeneralisierung. Zwischen den beiden muss ein glückliches Medium gefunden werden.

Klassifikation Algorithmen in Data Science - Dummies

Die Wahl des Herausgebers

Auflistung Vereinbarungen über die Immobilienlizenz Prüfung - Dummies

Auflistung Vereinbarungen über die Immobilienlizenz Prüfung - Dummies

Listing-Vereinbarungen werden auf der Immobilien abgedeckt werden Lizenzprüfung. Eine Listungsvereinbarung stellt eine Agenturbeziehung zwischen einem Agenten und einem Grundstücksverkäufer her. Der Vertreter verpflichtet sich, den Verkäufer bei der Vermarktung der Immobilie zu vertreten. Hier sind die Namen und Beschreibungen der vier Arten von Listing-Vereinbarungen in der Reihenfolge, in der sie sind ...

Immobilien-Lizenz-Prüfung: 7 Verwirrende Wortpaare - Dummies

Immobilien-Lizenz-Prüfung: 7 Verwirrende Wortpaare - Dummies

Bevor Sie Ihre Immobilienlizenz nehmen Es ist wichtig, dass Sie den Unterschied zwischen ähnlich klingenden Begriffen verstehen. Die folgenden Immobilienbegriffe sind am häufigsten verwirrt; Holen Sie sich diese auswendig und Sie sind auf dem Weg zu mehr richtigen Antworten. Eigentumswohnung / Genossenschaft: Ein Eigentümer einer Eigentumswohnung besitzt tatsächlich Immobilien. Dieser Besitz ist in der Regel der Luftraum ...

Hypothek Akzeptanz Überlegungen zur Immobilienlizenz Prüfung - Dummies

Hypothek Akzeptanz Überlegungen zur Immobilienlizenz Prüfung - Dummies

Die Immobilienlizenz Prüfung wird Fragen zu Hypotheken und Kreditgebern. Ein primärer Kreditgeber hat zwei Überlegungen, wenn er einen Kredit für den Kauf oder die Refinanzierung von Immobilien vergibt: den Wert der Immobilie und die Fähigkeit des Kreditnehmers, die Schulden zu tilgen. Bei der Überprüfung des Wertes der Immobilie, ...

Die Wahl des Herausgebers

GED Fragen der wissenschaftlichen Praxis: Arbeit, Bewegung und Kraft - Dummies

GED Fragen der wissenschaftlichen Praxis: Arbeit, Bewegung und Kraft - Dummies

Die Gesetze von Physik beeinflusst alle Arten von alltäglichen Aktivitäten, vom Autofahren bis zum Baseballspiel. Es überrascht daher nicht, dass sich einige Fragen zum GED Science-Test mit Konzepten wie Arbeit, Bewegung und Kraft befassen. In den folgenden Übungsfragen müssen Sie sowohl Theorie als auch gesunden Menschenverstand anwenden, um ...

GED Beispielfragen: Argumentieren durch Sprachkunst Lesen von technischen Informationen - Dummies

GED Beispielfragen: Argumentieren durch Sprachkunst Lesen von technischen Informationen - Dummies

Zu den Begründungen Durch die Sprachabteilung der GED können Sie gebeten werden, Fragen zu einer technischen Passage zu beantworten. Dies könnte Anweisungen zur Fertigstellung enthalten, wie die folgenden. Die Fragen in diesem Artikel beziehen sich auf den folgenden Auszug aus Russell Harts Fotografie für Dummies, 2. Auflage (Wiley). Was ist das Geheimnis für ...?

GED Beispielfragen: Kurze wissenschaftliche Antwortfragen - Dummys

GED Beispielfragen: Kurze wissenschaftliche Antwortfragen - Dummys

Irgendwann während des Science-Teils der GEE-Test, werden Sie gebeten, eine kurze Antwort zu verfassen. Sie werden eine Passage erhalten und eine Frage stellen, auf die Sie antworten müssen. Machen Sie Ihre Antwort klar und prägnant. Kurzer Antwortdurchgang Jeder kennt Cheddar-Käse. Leute setzen ...

Die Wahl des Herausgebers

Stärkung des Selbstwertgefühls für Dummies Cheat Sheet (UK Edition) - Dummies

Stärkung des Selbstwertgefühls für Dummies Cheat Sheet (UK Edition) - Dummies

Selbstzweifel und schlechte Selbstwertschätzung scheinen Hand in Hand mit dem Menschsein zu gehen. Selbst wenn Sie im Allgemeinen gesund und ein gutes Selbstwertgefühl haben, haben Sie wahrscheinlich Zeiten in Ihrem Leben, an denen Sie sich unwohl fühlen und Gedanken und Gedanken über sich selbst verunglimpfen. Um zu helfen, halten Sie diesen Spickzettel, damit Sie ein paar Tipps und Hinweise haben ...

Antipsychotika und die Behandlung der bipolaren Störung - Dummies

Antipsychotika und die Behandlung der bipolaren Störung - Dummies

Atypische Antipsychotika (atypische Neuroleptika oder Antipsychotika der zweiten Generation) ursprünglich formuliert, um Psychose bei Schizophrenie zu behandeln, aber diese Klasse von Medikamenten hat sich auch als wirksam bei der Verringerung der Manie und Augmentierung Antidepressiva Behandlung erwiesen. Die atypische oder zweite Generation stammt aus der Tatsache, dass diese neuere Art von Antipsychotika anders funktioniert als der ältere Standard oder Neuroleptika der ersten Generation, ...

Verwaltung von Angst mit Achtsamkeit für Dummies Cheat Sheet - Dummies

Verwaltung von Angst mit Achtsamkeit für Dummies Cheat Sheet - Dummies

Sie möchten mehr darüber erfahren, wie Sie Ihre Angst mit Achtsamkeit? Sieh dir den Spickzettel an und entdecke die häufigsten Ursachen von Angstzuständen. Versuchen Sie eine kurze Achtsamkeitsübung, die Ihrer Angst helfen kann. Erkunde Wege, wie du deine ängstlichen Gedanken achtsam handhaben kannst. Finden Sie einfache Möglichkeiten heraus, jeden Tag aufmerksam zu sein. Dieser Spickzettel ...