Zuhause Persönliche Finanzen Wie man Daten für Predictive Analysis vorbereitet - Dummies

Wie man Daten für Predictive Analysis vorbereitet - Dummies

Inhaltsverzeichnis:

Video: Moderation (Interaktion) in Excel rechnen und interpretieren - Daten analysieren in Excel (23) 2024

Video: Moderation (Interaktion) in Excel rechnen und interpretieren - Daten analysieren in Excel (23) 2024
Anonim

Wenn Sie eine neue Programmiersprache lernen, ist es üblich, das Programm "Hallo Welt" zu schreiben. Für maschinelles Lernen und prädiktive Analytik ist das Erstellen eines Modells zur Klassifizierung des Iris-Datasets das entsprechende "Hello World" -Programm. Dies ist ein recht einfaches Beispiel, aber es ist sehr effektiv, um die Grundlagen des maschinellen Lernens und der vorausschauenden Analyse zu vermitteln.

Wie Sie das Beispiel-Dataset erhalten

Um unser Vorhersagemodell zu erstellen, müssen Sie das Beispiel-Iris-Dataset herunterladen. Dieser Datensatz ist aus vielen Quellen frei verfügbar, insbesondere an akademischen Einrichtungen, die Abteilungen für maschinelles Lernen haben. Glücklicherweise waren die Leute nett genug, einige Beispieldatensätze und Datenladefunktionen zusammen mit ihrem Paket aufzunehmen. Für die Zwecke dieser Beispiele müssen Sie nur ein paar einfache Codezeilen ausführen, um die Daten zu laden.

Wie man Ihre Daten beschriftet

Hier ist eine Beobachtung und ihre Merkmale aus jeder Klasse des Iris Flower Datensatzes.

Kelchblattlänge Kelchblattbreite Blütenblattlänge Blütenblattbreite Zielklasse / Etikett
5. 1 3. 5 1. 4 0. 2 Setosa (0)
7. 0 3. 2 4. 7 1. 4 Versicolor (1)
6. 3 3. 3 6. 0 2. 5 Virginica (2)

Der Iris Flower Datensatz ist ein reiner multivariater Datensatz von drei Klassen der Irisblume ( Iris setosa, Iris virginica, und Iris versicolor ) Ronald Fisher in seinem Artikel von 1936 "Die Verwendung von mehreren Messungen in taxonomischen Problemen. "Dieser Datensatz ist vor allem für seinen umfangreichen Einsatz in der akademischen Welt für maschinelles Lernen und Statistiken bekannt.

Der Datensatz besteht aus insgesamt 150 Instanzen mit jeweils 50 Instanzen aus jeder der 3 Klassen der Irisblume. Die Probe hat 4 Merkmale (auch allgemein als Attribute bezeichnet), welche die Längen- und Breitenmessungen der Kelchblätter und Blütenblätter sind.

Der interessante Teil dieses Datensatzes ist, dass die drei Klassen etwas linear trennbar sind. Die Setosa -Klasse kann von den anderen beiden Klassen getrennt werden, indem eine gerade Linie im Diagramm zwischen ihnen gezeichnet wird. Die Virginica und Versicolor Klassen können nicht perfekt durch eine gerade Linie getrennt werden - obwohl es nahe ist. Dies macht es zu einem perfekten Kandidatendatensatz für die Klassifikationsanalyse, aber nicht so gut für die Clusteranalyse.

Die Beispieldaten waren bereits gekennzeichnet. Die rechte Spalte (Label) oben zeigt die Namen jeder Klasse der Irisblume.Der Klassenname wird als -Etikett oder als -Target bezeichnet. wird normalerweise einer Variablen namens y zugewiesen. Es ist im Grunde das Ergebnis oder das Ergebnis dessen, was vorhergesagt wird.

In Statistik und Modellierung wird es häufig als die abhängige Variable bezeichnet. Sie hängt von den Eingaben ab, die der Länge und Breite der Kelchblätter und der Länge und Breite der Blütenblätter entsprechen.

Vielleicht möchten Sie auch wissen, was an dem vorverarbeiteten Iris-Datensatz von Scikit im Vergleich zum ursprünglichen Datensatz anders ist. Um dies herauszufinden, müssen Sie die ursprüngliche Datendatei erhalten. Sie können eine Google-Suche nach iris dataset durchführen und diese herunterladen oder von einer der akademischen Institutionen anzeigen lassen.

Das Ergebnis, das normalerweise zuerst auftaucht, ist das von der University of California Irvine (UCI) gelernte Repositorium von Datensätzen. Der Iris-Datensatz im Originalzustand aus dem UCI-Repository für maschinelles Lernen ist auf der UCI-Website zu finden.

Wenn Sie es herunterladen, sollten Sie es mit einem beliebigen Texteditor anzeigen können. Wenn Sie die Daten in der Datei anzeigen, werden Sie feststellen, dass in jeder Zeile fünf Spalten vorhanden sind. Die ersten vier Spalten sind die Messungen (bezeichnet als die Features ) und die letzte Spalte ist das Label. Die Beschriftung unterscheidet sich zwischen der Original- und der Scikit-Version des Iris-Datasets.

Ein weiterer Unterschied ist die erste Zeile der Datendatei. Es enthält eine Kopfzeile, die von der Funktion scikit data-loading verwendet wird. Es hat keine Auswirkung auf die Algorithmen selbst.

Wenn Sie Funktionen auf Zahlen normieren, anstatt sie als Text zu speichern, wird die Verarbeitung der Algorithmen erleichtert - und sie ist wesentlich speicherökonomischer. Dies ist besonders offensichtlich, wenn Sie sehr große Datensätze mit vielen Funktionen ausführen - was in realen Szenarien häufig der Fall ist.

Hier sind Beispieldaten aus beiden Dateien. Alle Datenspalten sind bis auf Col5 identisch. Beachten Sie, dass Scikit Klassennamen mit numerischen Bezeichnungen hat. Die Originaldatei hat Beschriftungen.

Wie man Daten für Predictive Analysis vorbereitet - Dummies

Die Wahl des Herausgebers

Netzwerkgrundlagen: IPv6-Adresse Vereinfachte Notation - Dummies

Netzwerkgrundlagen: IPv6-Adresse Vereinfachte Notation - Dummies

Bei der Arbeit mit IPv6-Adressen kann es viel Zeit in Anspruch nehmen. schreibe deine Adressen - immerhin sind sie 128 Bit lang. Um das Leben einfacher zu machen, gibt es einige Regeln, die Sie verwenden können, um diese Schreibweise zu verdichten: Führende Nullen in der Adresse sind optional. Für einen Adressblock wäre also 0A45 gleich A45, ...

Netzwerkgrundlagen: IP-Netzwerkklassen - Dummies

Netzwerkgrundlagen: IP-Netzwerkklassen - Dummies

Netzwerkadressierungsarchitektur unterteilt den Adressraum für Internet Protocol Version 4 (IPv4 ) in fünf Adressklassen. Jede Klasse, die in den ersten vier Bits der Adresse codiert ist, definiert entweder eine andere Netzwerkgröße, d.h. e. Anzahl der Hosts für Unicast-Adressen (Klassen A, B, C) oder Multicast-Netzwerk (Klasse D). Die fünfte Klasse (E) address ...

Netzwerkgrundlagen: Netzwerkport Übersicht - Dummys

Netzwerkgrundlagen: Netzwerkport Übersicht - Dummys

In TCP / IP- und UDP-Netzwerken ist ein Port ein Endpunkt eine logische Verbindung. Die Portnummer gibt an, um welchen Port es sich handelt. Port 80 wird beispielsweise für HTTP-Datenverkehr verwendet. Wenn Sie einen Befehl wie netstat -n unter Microsoft Windows oder Linux verwenden, sehen Sie eine Auflistung der lokalen Adressen ...

Die Wahl des Herausgebers

Excel-Dashboards: Wie Sie Ihr erstes Makro aufzeichnen - Dummies

Excel-Dashboards: Wie Sie Ihr erstes Makro aufzeichnen - Dummies

Wenn Sie ein Anfänger auf dem Dashboard sind Automatisierung in Excel ist es unwahrscheinlich, dass Sie den VBA-Code (Visual Basic für Applikationen) von Hand schreiben können, um Makros zu erstellen. Ohne vollständige Kenntnis des Objektmodells und der Syntax von Excel wäre das Schreiben des benötigten Codes für die meisten Anfänger unmöglich. Hier können Sie ein Makro aufzeichnen ...

Excel-Formelberechnungsmodi - Dummys

Excel-Formelberechnungsmodi - Dummys

Standardmäßig ist Excel so eingestellt, dass es automatisch neu berechnet wird. Wenn Sie eine der Zellen ändern, auf die in einer bestimmten Formel verwiesen wird, berechnet Excel diese Formel automatisch neu, sodass ein korrektes Ergebnis basierend auf den Änderungen in den Zellbezügen zurückgegeben wird. Wenn die Formel, die neu berechnet wird, auch als Zellenreferenz in anderen verwendet wird ...

Excel Formelfehler - Dummies

Excel Formelfehler - Dummies

Es ist nicht immer glatt, wenn Sie mit Excel-Formeln arbeiten. Manchmal gibt eine Formel einen Fehlerwert anstelle des erwarteten Werts zurück. Excel hilft Ihnen, das Problem zu identifizieren, indem Sie einen von sieben Fehlerwerten zurückgeben: # DIV / 0! , # N / A, #NAME? , #NULL! , #NUM! , #REF! und #WERT! , erklärt in der folgenden Liste: # DIV / 0! : ...

Die Wahl des Herausgebers

Teilen, Weiterverbreiten und Kommentieren von Google+ Posts - Dummies

Teilen, Weiterverbreiten und Kommentieren von Google+ Posts - Dummies

, Wenn Sie mit der Verwendung und Veröffentlichung beginnen Bei Google+ möchten Sie gelegentlich Links und Bilder teilen, die Beiträge anderer freigeben, ihre Beiträge kommentieren und andere in Ihren eigenen Google+ Beiträgen erwähnen. Vielleicht fragen Sie sich auch, wie Sie andere dazu bringen, Ihre eigenen Beiträge öfter zu kommentieren. Teilen von Links und Bildern in Google+ So geben Sie ein ...

Teilen Ihrer Google+ Posts mit bestimmten Personen - Dummies

Teilen Ihrer Google+ Posts mit bestimmten Personen - Dummies

Beiträge auf Google+ sind ganz einfach und können posten Text, Links, Fotos, Videos und sogar Ihren aktuellen Standort. Der schwierigste Teil des Beitrags auf Google+ besteht darin, auszuwählen, wen Sie Ihren Beitrag sehen möchten. Google+ verwendet Ihre Kreise, um festzulegen, wer Ihre Beiträge sehen kann. Kreise sind etwas einfacher als Listen, weil ...

Taggen von Personen in Google+ Fotos - Dummies

Taggen von Personen in Google+ Fotos - Dummies

Sie können Personen in Ihren Kreisen auf jedem Foto auf Google+ markieren. Wenn Sie eine Person in einem Foto taggen, wird diese Person über ihre Google+ Benachrichtigungen benachrichtigt. Sie können dann das Tag entfernen oder genehmigen, und das Foto wird mit dem Tag des Namens dieser Person darin angezeigt. Um jemanden zu markieren, ...

Quelle Col1 Col2 Col3 Col4 Col5
Scikit 5. 1 3. 5 1. 4 0. 2 0
Original 5. 1 3. 5 1. 4 0. 2 Iris-Setosa
Scikit 7. 0 3. 2 4. 7 1. 4 1
Original 7. 0 3. 2 4. 7 1. 4 Iris-versicolor
Scikit 6. 3 3. 3 6. 0 2. 5 2 Original
6. 3 3. 3 6. 0 2. 5 Iris-virginica