Zuhause Persönliche Finanzen Wie man Daten für Predictive Analysis vorbereitet - Dummies

Wie man Daten für Predictive Analysis vorbereitet - Dummies

Inhaltsverzeichnis:

Video: Moderation (Interaktion) in Excel rechnen und interpretieren - Daten analysieren in Excel (23) 2025

Video: Moderation (Interaktion) in Excel rechnen und interpretieren - Daten analysieren in Excel (23) 2025
Anonim

Wenn Sie eine neue Programmiersprache lernen, ist es üblich, das Programm "Hallo Welt" zu schreiben. Für maschinelles Lernen und prädiktive Analytik ist das Erstellen eines Modells zur Klassifizierung des Iris-Datasets das entsprechende "Hello World" -Programm. Dies ist ein recht einfaches Beispiel, aber es ist sehr effektiv, um die Grundlagen des maschinellen Lernens und der vorausschauenden Analyse zu vermitteln.

Wie Sie das Beispiel-Dataset erhalten

Um unser Vorhersagemodell zu erstellen, müssen Sie das Beispiel-Iris-Dataset herunterladen. Dieser Datensatz ist aus vielen Quellen frei verfügbar, insbesondere an akademischen Einrichtungen, die Abteilungen für maschinelles Lernen haben. Glücklicherweise waren die Leute nett genug, einige Beispieldatensätze und Datenladefunktionen zusammen mit ihrem Paket aufzunehmen. Für die Zwecke dieser Beispiele müssen Sie nur ein paar einfache Codezeilen ausführen, um die Daten zu laden.

Wie man Ihre Daten beschriftet

Hier ist eine Beobachtung und ihre Merkmale aus jeder Klasse des Iris Flower Datensatzes.

Kelchblattlänge Kelchblattbreite Blütenblattlänge Blütenblattbreite Zielklasse / Etikett
5. 1 3. 5 1. 4 0. 2 Setosa (0)
7. 0 3. 2 4. 7 1. 4 Versicolor (1)
6. 3 3. 3 6. 0 2. 5 Virginica (2)

Der Iris Flower Datensatz ist ein reiner multivariater Datensatz von drei Klassen der Irisblume ( Iris setosa, Iris virginica, und Iris versicolor ) Ronald Fisher in seinem Artikel von 1936 "Die Verwendung von mehreren Messungen in taxonomischen Problemen. "Dieser Datensatz ist vor allem für seinen umfangreichen Einsatz in der akademischen Welt für maschinelles Lernen und Statistiken bekannt.

Der Datensatz besteht aus insgesamt 150 Instanzen mit jeweils 50 Instanzen aus jeder der 3 Klassen der Irisblume. Die Probe hat 4 Merkmale (auch allgemein als Attribute bezeichnet), welche die Längen- und Breitenmessungen der Kelchblätter und Blütenblätter sind.

Der interessante Teil dieses Datensatzes ist, dass die drei Klassen etwas linear trennbar sind. Die Setosa -Klasse kann von den anderen beiden Klassen getrennt werden, indem eine gerade Linie im Diagramm zwischen ihnen gezeichnet wird. Die Virginica und Versicolor Klassen können nicht perfekt durch eine gerade Linie getrennt werden - obwohl es nahe ist. Dies macht es zu einem perfekten Kandidatendatensatz für die Klassifikationsanalyse, aber nicht so gut für die Clusteranalyse.

Die Beispieldaten waren bereits gekennzeichnet. Die rechte Spalte (Label) oben zeigt die Namen jeder Klasse der Irisblume.Der Klassenname wird als -Etikett oder als -Target bezeichnet. wird normalerweise einer Variablen namens y zugewiesen. Es ist im Grunde das Ergebnis oder das Ergebnis dessen, was vorhergesagt wird.

In Statistik und Modellierung wird es häufig als die abhängige Variable bezeichnet. Sie hängt von den Eingaben ab, die der Länge und Breite der Kelchblätter und der Länge und Breite der Blütenblätter entsprechen.

Vielleicht möchten Sie auch wissen, was an dem vorverarbeiteten Iris-Datensatz von Scikit im Vergleich zum ursprünglichen Datensatz anders ist. Um dies herauszufinden, müssen Sie die ursprüngliche Datendatei erhalten. Sie können eine Google-Suche nach iris dataset durchführen und diese herunterladen oder von einer der akademischen Institutionen anzeigen lassen.

Das Ergebnis, das normalerweise zuerst auftaucht, ist das von der University of California Irvine (UCI) gelernte Repositorium von Datensätzen. Der Iris-Datensatz im Originalzustand aus dem UCI-Repository für maschinelles Lernen ist auf der UCI-Website zu finden.

Wenn Sie es herunterladen, sollten Sie es mit einem beliebigen Texteditor anzeigen können. Wenn Sie die Daten in der Datei anzeigen, werden Sie feststellen, dass in jeder Zeile fünf Spalten vorhanden sind. Die ersten vier Spalten sind die Messungen (bezeichnet als die Features ) und die letzte Spalte ist das Label. Die Beschriftung unterscheidet sich zwischen der Original- und der Scikit-Version des Iris-Datasets.

Ein weiterer Unterschied ist die erste Zeile der Datendatei. Es enthält eine Kopfzeile, die von der Funktion scikit data-loading verwendet wird. Es hat keine Auswirkung auf die Algorithmen selbst.

Wenn Sie Funktionen auf Zahlen normieren, anstatt sie als Text zu speichern, wird die Verarbeitung der Algorithmen erleichtert - und sie ist wesentlich speicherökonomischer. Dies ist besonders offensichtlich, wenn Sie sehr große Datensätze mit vielen Funktionen ausführen - was in realen Szenarien häufig der Fall ist.

Hier sind Beispieldaten aus beiden Dateien. Alle Datenspalten sind bis auf Col5 identisch. Beachten Sie, dass Scikit Klassennamen mit numerischen Bezeichnungen hat. Die Originaldatei hat Beschriftungen.

Wie man Daten für Predictive Analysis vorbereitet - Dummies

Die Wahl des Herausgebers

Wie man Dateien in C ++ kopiert - Dummies

Wie man Dateien in C ++ kopiert - Dummies

Ah, eine Datei kopieren - etwas so einfaches, es passiert alles Zeit. Kopiere diese Datei dorthin; Kopieren Sie diese Datei hier. Aber was genau passiert, wenn Sie eine Datei kopieren? Sie erstellen tatsächlich eine neue Datei und füllen diese mit dem gleichen Inhalt wie die Originaldatei. Und wie machst du das? Nun, ...

Anleitung zum Erstellen eines Verzeichnisses in C ++ - Dummies

Anleitung zum Erstellen eines Verzeichnisses in C ++ - Dummies

Wenn Sie ein Verzeichnis erstellen möchten, können Sie das MKdir Funktion. Wenn die Funktion das Verzeichnis für Sie erstellen kann, gibt sie eine 0 zurück. Andernfalls wird ein Wert ungleich Null zurückgegeben. (Wenn Sie es ausführen, erhalten Sie eine -1, aber Ihre beste Wette - immer - ist es, gegen 0 zu testen.) Hier ist einige ...

Wie man eine einfache mathematische Vorlage in C ++ - Dummies

Wie man eine einfache mathematische Vorlage in C ++ - Dummies

Mit einer mathematischen Vorlage erstellt, die man normalerweise benötigt Zugriff auf eine Vielzahl von Berechnungen, aber nur jeweils eine oder zwei dieser Berechnungen. Zum Beispiel, wenn jemand Ihre Hypothek berechnet, muss er die Amortisationsrechnung nicht kennen. Die Person kann jedoch die Amortisationsberechnung benötigen, wenn Sie mit ...

Die Wahl des Herausgebers

ASVAB: Lesen für die Studie - Dummies

ASVAB: Lesen für die Studie - Dummies

Lesen für die Zwecke des Studiums der ASVAB ist eine andere Art des Lesens. Leseverständnis erfordert nur, dass Sie Informationen lange genug im Kurzzeitgedächtnis speichern, um einige Sekunden später eine Frage zu beantworten. Zum Lesen für die Zwecke des Studiums müssen Sie wichtige Informationen in Ihr Langzeitgedächtnis einpflegen - ...

ASVAB Mathematik Wissenspraxis: Ungleichungen - Dummies

ASVAB Mathematik Wissenspraxis: Ungleichungen - Dummies

Als wäre Algebra nicht anspruchsvoll genug, einige Fragen zur Der Subtest Mathematik auf dem ASVAB wird auch eine Ungleichheit einwerfen - nur um sicherzustellen, dass Sie aufmerksam sind. Wie erkennst du eine Ungleichheit? Halten Sie Ausschau nach Fragen mit mehr als oder weniger als Symbolen oder nach Graphen, die eine Zahlenlinie mit einem ...

ASVAB Mathematische Wissenspraxis: Fraktionen - Dummies

ASVAB Mathematische Wissenspraxis: Fraktionen - Dummies

Der Subtest Mathematikwissen auf dem ASVAB wird Fragen beinhalten, die Sie fragen mit Teilen eines Ganzen oder Fraktionen arbeiten. Diese Fragen können das Multiplizieren, Dividieren, Addieren, Subtrahieren und Konvertieren von Brüchen beinhalten, ähnlich den folgenden Übungsfragen. Übungsfragen Welche Fraktionen sind nicht gleichwertig? Gegeben einfach den Ausdruck. Antworten und Erklärungen Das richtige ...

Die Wahl des Herausgebers

Hinzufügen von Flash-Audio- und Videodateien in Dreamweaver - Dummies

Hinzufügen von Flash-Audio- und Videodateien in Dreamweaver - Dummies

Adobe besitzt sowohl Flash als auch Dreamweaver Daher finden Sie großartige Unterstützung für Flash-Dateien in Dreamweaver. Das Dialogfeld "FLV einfügen" erleichtert das Festlegen von Parametern für Flash. Dreamweaver erkennt sogar automatisch die Größe von Flash-Videodateien. Sie können Flash auch zum Erstellen und Einfügen von Audiodateien verwenden, wobei nur der Player angezeigt wird.

Einstellen von Bildhelligkeit und -kontrast in Dreamweaver - Dummies

Einstellen von Bildhelligkeit und -kontrast in Dreamweaver - Dummies

Dreamweaver bietet Werkzeuge zum Erstellen von Bildern Einstellungen, einschließlich der Helligkeit und des Kontrastes. Durch die Anpassung der Bildhelligkeit können Sie die Gesamtlichtmenge in einem Bild ändern. Kontrast steuert den Unterschied zwischen hellen und dunklen Bereichen eines Bildes. Wenn Sie die Dreamweaver-Bearbeitungswerkzeuge verwenden, wird das Bild dauerhaft geändert, wenn die Seite ...

Hinzufügen von Bildern zu Ihrer Website in Dreamweaver - Dummies

Hinzufügen von Bildern zu Ihrer Website in Dreamweaver - Dummies

Wenn Sie Ihrer Website ein Bild hinzufügen, erscheint anfangs fast magisch, weil der Prozess mit Dreamweaver so einfach ist. Die Herausforderung bei Webgrafiken besteht darin, sie nicht zu Ihren Seiten hinzuzufügen, sondern gut aussehende Bilder zu erstellen, die schnell im Browser Ihres Viewers geladen werden. Sie benötigen ein anderes Programm wie Photoshop, Photoshop Elements oder Fireworks, um ...

Quelle Col1 Col2 Col3 Col4 Col5
Scikit 5. 1 3. 5 1. 4 0. 2 0
Original 5. 1 3. 5 1. 4 0. 2 Iris-Setosa
Scikit 7. 0 3. 2 4. 7 1. 4 1
Original 7. 0 3. 2 4. 7 1. 4 Iris-versicolor
Scikit 6. 3 3. 3 6. 0 2. 5 2 Original
6. 3 3. 3 6. 0 2. 5 Iris-virginica