Zuhause Persönliche Finanzen Wie man Daten für Predictive Analysis vorbereitet - Dummies

Wie man Daten für Predictive Analysis vorbereitet - Dummies

Inhaltsverzeichnis:

Video: Moderation (Interaktion) in Excel rechnen und interpretieren - Daten analysieren in Excel (23) 2025

Video: Moderation (Interaktion) in Excel rechnen und interpretieren - Daten analysieren in Excel (23) 2025
Anonim

Wenn Sie eine neue Programmiersprache lernen, ist es üblich, das Programm "Hallo Welt" zu schreiben. Für maschinelles Lernen und prädiktive Analytik ist das Erstellen eines Modells zur Klassifizierung des Iris-Datasets das entsprechende "Hello World" -Programm. Dies ist ein recht einfaches Beispiel, aber es ist sehr effektiv, um die Grundlagen des maschinellen Lernens und der vorausschauenden Analyse zu vermitteln.

Wie Sie das Beispiel-Dataset erhalten

Um unser Vorhersagemodell zu erstellen, müssen Sie das Beispiel-Iris-Dataset herunterladen. Dieser Datensatz ist aus vielen Quellen frei verfügbar, insbesondere an akademischen Einrichtungen, die Abteilungen für maschinelles Lernen haben. Glücklicherweise waren die Leute nett genug, einige Beispieldatensätze und Datenladefunktionen zusammen mit ihrem Paket aufzunehmen. Für die Zwecke dieser Beispiele müssen Sie nur ein paar einfache Codezeilen ausführen, um die Daten zu laden.

Wie man Ihre Daten beschriftet

Hier ist eine Beobachtung und ihre Merkmale aus jeder Klasse des Iris Flower Datensatzes.

Kelchblattlänge Kelchblattbreite Blütenblattlänge Blütenblattbreite Zielklasse / Etikett
5. 1 3. 5 1. 4 0. 2 Setosa (0)
7. 0 3. 2 4. 7 1. 4 Versicolor (1)
6. 3 3. 3 6. 0 2. 5 Virginica (2)

Der Iris Flower Datensatz ist ein reiner multivariater Datensatz von drei Klassen der Irisblume ( Iris setosa, Iris virginica, und Iris versicolor ) Ronald Fisher in seinem Artikel von 1936 "Die Verwendung von mehreren Messungen in taxonomischen Problemen. "Dieser Datensatz ist vor allem für seinen umfangreichen Einsatz in der akademischen Welt für maschinelles Lernen und Statistiken bekannt.

Der Datensatz besteht aus insgesamt 150 Instanzen mit jeweils 50 Instanzen aus jeder der 3 Klassen der Irisblume. Die Probe hat 4 Merkmale (auch allgemein als Attribute bezeichnet), welche die Längen- und Breitenmessungen der Kelchblätter und Blütenblätter sind.

Der interessante Teil dieses Datensatzes ist, dass die drei Klassen etwas linear trennbar sind. Die Setosa -Klasse kann von den anderen beiden Klassen getrennt werden, indem eine gerade Linie im Diagramm zwischen ihnen gezeichnet wird. Die Virginica und Versicolor Klassen können nicht perfekt durch eine gerade Linie getrennt werden - obwohl es nahe ist. Dies macht es zu einem perfekten Kandidatendatensatz für die Klassifikationsanalyse, aber nicht so gut für die Clusteranalyse.

Die Beispieldaten waren bereits gekennzeichnet. Die rechte Spalte (Label) oben zeigt die Namen jeder Klasse der Irisblume.Der Klassenname wird als -Etikett oder als -Target bezeichnet. wird normalerweise einer Variablen namens y zugewiesen. Es ist im Grunde das Ergebnis oder das Ergebnis dessen, was vorhergesagt wird.

In Statistik und Modellierung wird es häufig als die abhängige Variable bezeichnet. Sie hängt von den Eingaben ab, die der Länge und Breite der Kelchblätter und der Länge und Breite der Blütenblätter entsprechen.

Vielleicht möchten Sie auch wissen, was an dem vorverarbeiteten Iris-Datensatz von Scikit im Vergleich zum ursprünglichen Datensatz anders ist. Um dies herauszufinden, müssen Sie die ursprüngliche Datendatei erhalten. Sie können eine Google-Suche nach iris dataset durchführen und diese herunterladen oder von einer der akademischen Institutionen anzeigen lassen.

Das Ergebnis, das normalerweise zuerst auftaucht, ist das von der University of California Irvine (UCI) gelernte Repositorium von Datensätzen. Der Iris-Datensatz im Originalzustand aus dem UCI-Repository für maschinelles Lernen ist auf der UCI-Website zu finden.

Wenn Sie es herunterladen, sollten Sie es mit einem beliebigen Texteditor anzeigen können. Wenn Sie die Daten in der Datei anzeigen, werden Sie feststellen, dass in jeder Zeile fünf Spalten vorhanden sind. Die ersten vier Spalten sind die Messungen (bezeichnet als die Features ) und die letzte Spalte ist das Label. Die Beschriftung unterscheidet sich zwischen der Original- und der Scikit-Version des Iris-Datasets.

Ein weiterer Unterschied ist die erste Zeile der Datendatei. Es enthält eine Kopfzeile, die von der Funktion scikit data-loading verwendet wird. Es hat keine Auswirkung auf die Algorithmen selbst.

Wenn Sie Funktionen auf Zahlen normieren, anstatt sie als Text zu speichern, wird die Verarbeitung der Algorithmen erleichtert - und sie ist wesentlich speicherökonomischer. Dies ist besonders offensichtlich, wenn Sie sehr große Datensätze mit vielen Funktionen ausführen - was in realen Szenarien häufig der Fall ist.

Hier sind Beispieldaten aus beiden Dateien. Alle Datenspalten sind bis auf Col5 identisch. Beachten Sie, dass Scikit Klassennamen mit numerischen Bezeichnungen hat. Die Originaldatei hat Beschriftungen.

Wie man Daten für Predictive Analysis vorbereitet - Dummies

Die Wahl des Herausgebers

Web Marketing: Warum Suchmaschinen existieren - Dummies

Web Marketing: Warum Suchmaschinen existieren - Dummies

Wenn Sie verstehen, warum Suchmaschinen existieren, können sie für Sie in Ihrem Web-Marketing-Geschäft arbeiten. Also, hier ist eine kurze Lektion, warum Suchmaschinen existieren und wie Sie sie nutzen können, um Geld zu verdienen. Suchmaschinen liefern Relevanz. Relevanz bedeutet, dass Besucher auf Suchergebnisse klicken und zufrieden sind mit ...

Was sind Tür- und Informationsseiten? - dummies

Was sind Tür- und Informationsseiten? - dummies

Eine Doorway-Seite wird nur als Zugang von einer Suchmaschine zu Ihrer Website erstellt. Doorway-Seiten werden manchmal als Gateway-Seiten und Geisterseiten bezeichnet. Die Idee besteht darin, hoch optimierte Seiten zu erstellen, die von Suchmaschinen aufgenommen und indiziert werden und die mit etwas Glück gut ranken und somit den Traffic auf eine ...

Was ist eine Weiterleitung bei der Suchmaschinenoptimierung? - Dummies

Was ist eine Weiterleitung bei der Suchmaschinenoptimierung? - Dummies

Eine Weiterleitung ist das automatische Laden einer Seite ohne Benutzereingriff. Sie klicken auf einen Link, um eine Webseite in Ihren Browser zu laden, und innerhalb von Sekunden verschwindet die geladene Seite, und eine neue wird angezeigt. Designer erstellen häufig Seiten für Suchmaschinen - optimierte, schlüsselwortreiche Seiten -, die Besucher auf die ...

Die Wahl des Herausgebers

Behandeln Probleme mit dem Kundenservice über Social Media - Dummies

Behandeln Probleme mit dem Kundenservice über Social Media - Dummies

, Wenn Kunden wissen, dass sie direkt mit ein Geschäft in den sozialen Medien, können sie aus einer beliebigen Anzahl von Gründen mit ihnen in Verbindung treten. Aber sobald sie merken, dass ein Problem mit dem Kundenservice oder einer Produktfrage über einen einzigen Tweet oder Beitrag angesprochen werden kann, ist es wahrscheinlicher, dass sie mit dem Unternehmen Geschäfte machen.

Acht Möglichkeiten, Social Media Feedback zu erhalten - Dummies

Acht Möglichkeiten, Social Media Feedback zu erhalten - Dummies

Die heutige Technologie verändert die Art und Weise, wie wir Geschäfte machen blitzschnell. Auch der Social-Media-Handel bewegt sich blitzschnell, aber durch die Beobachtung von Erwähnungen und Fragen an die Community können Sie einen Eindruck davon bekommen, wie Ihr Markt über bevorstehende Veränderungen denkt. Auch andere Posts können Ihnen helfen, kritisches Feedback aus der Öffentlichkeit zusammenzustellen ...

Manage Social Media Commerce mit HootSuite - dummies

Manage Social Media Commerce mit HootSuite - dummies

HootSuite ist ein Social Media Management System zur Umsetzung von Outreach und Überwachung in sozialen Netzwerken über ein einziges webbasiertes Dashboard. Für Unternehmen wird HootSuite am häufigsten von Social-Media-Teams mit mehreren Agenten verwendet, aber auch viele Einzelanwender mögen es. Wenn Sie auf der Suche nach einer robusten Plattform sind, die alles an einem Ort hält, ...

Die Wahl des Herausgebers

Die 5 Kornsterne der Mittelmeer - Dummies

Die 5 Kornsterne der Mittelmeer - Dummies

Die Mittelmeerdiät ist in der Praxis des Habens begründet ein Vollkorn zu jeder Mahlzeit. Und nein, das bedeutet nicht, eine ganze Platte Vollkornspaghetti mit Fleischsauce zum Abendessen zu essen. Stattdessen machen die Menschen im Mittelmeerraum ihr Getreide zur Beilage oder schaffen durch die Zugabe von magerem Eiweiß mehr Gleichgewicht ...

Strebe nach Gesundheit mit 7 bis 10 Portionen Obst und Gemüse - Schnuller

Strebe nach Gesundheit mit 7 bis 10 Portionen Obst und Gemüse - Schnuller

Der Verzehr von sieben bis zehn Portionen Obst und Gemüse pro Tag, wie sie für die mediterrane Ernährung empfohlen werden, mag sehr viel erscheinen, aber es muss keine so große Herausforderung sein. Wenn Sie nicht die Früchte und das Gemüse lieben, die spezifisch mit der Mittelmeerdiät verbunden sind, ist das okay! Essen Sie jede Art von Obst oder Gemüse, die Sie ...

Die gesundheitlichen Vorteile von mediterranen Kräutern und Gewürzen - Dummies

Die gesundheitlichen Vorteile von mediterranen Kräutern und Gewürzen - Dummies

Sie haben vielleicht gedacht, dass der Oregano und Basilikum in Ihrer Spaghetti-Sauce lieferte nur einen deutlichen italienischen oder mediterranen Geschmack, aber diese kleinen Kräuter sind Pflanzen, was bedeutet, dass sie alle Arten von gesundheitlichen Vorteilen haben, die einen großen Einfluss auf Ihre allgemeine Gesundheit haben können. Einfache Gewürze wie Ingwer und Oregano enthalten Phytochemikalien, ...

Quelle Col1 Col2 Col3 Col4 Col5
Scikit 5. 1 3. 5 1. 4 0. 2 0
Original 5. 1 3. 5 1. 4 0. 2 Iris-Setosa
Scikit 7. 0 3. 2 4. 7 1. 4 1
Original 7. 0 3. 2 4. 7 1. 4 Iris-versicolor
Scikit 6. 3 3. 3 6. 0 2. 5 2 Original
6. 3 3. 3 6. 0 2. 5 Iris-virginica