Zuhause Persönliche Finanzen Wie man Daten für Predictive Analysis vorbereitet - Dummies

Wie man Daten für Predictive Analysis vorbereitet - Dummies

Inhaltsverzeichnis:

Video: Moderation (Interaktion) in Excel rechnen und interpretieren - Daten analysieren in Excel (23) 2025

Video: Moderation (Interaktion) in Excel rechnen und interpretieren - Daten analysieren in Excel (23) 2025
Anonim

Wenn Sie eine neue Programmiersprache lernen, ist es üblich, das Programm "Hallo Welt" zu schreiben. Für maschinelles Lernen und prädiktive Analytik ist das Erstellen eines Modells zur Klassifizierung des Iris-Datasets das entsprechende "Hello World" -Programm. Dies ist ein recht einfaches Beispiel, aber es ist sehr effektiv, um die Grundlagen des maschinellen Lernens und der vorausschauenden Analyse zu vermitteln.

Wie Sie das Beispiel-Dataset erhalten

Um unser Vorhersagemodell zu erstellen, müssen Sie das Beispiel-Iris-Dataset herunterladen. Dieser Datensatz ist aus vielen Quellen frei verfügbar, insbesondere an akademischen Einrichtungen, die Abteilungen für maschinelles Lernen haben. Glücklicherweise waren die Leute nett genug, einige Beispieldatensätze und Datenladefunktionen zusammen mit ihrem Paket aufzunehmen. Für die Zwecke dieser Beispiele müssen Sie nur ein paar einfache Codezeilen ausführen, um die Daten zu laden.

Wie man Ihre Daten beschriftet

Hier ist eine Beobachtung und ihre Merkmale aus jeder Klasse des Iris Flower Datensatzes.

Kelchblattlänge Kelchblattbreite Blütenblattlänge Blütenblattbreite Zielklasse / Etikett
5. 1 3. 5 1. 4 0. 2 Setosa (0)
7. 0 3. 2 4. 7 1. 4 Versicolor (1)
6. 3 3. 3 6. 0 2. 5 Virginica (2)

Der Iris Flower Datensatz ist ein reiner multivariater Datensatz von drei Klassen der Irisblume ( Iris setosa, Iris virginica, und Iris versicolor ) Ronald Fisher in seinem Artikel von 1936 "Die Verwendung von mehreren Messungen in taxonomischen Problemen. "Dieser Datensatz ist vor allem für seinen umfangreichen Einsatz in der akademischen Welt für maschinelles Lernen und Statistiken bekannt.

Der Datensatz besteht aus insgesamt 150 Instanzen mit jeweils 50 Instanzen aus jeder der 3 Klassen der Irisblume. Die Probe hat 4 Merkmale (auch allgemein als Attribute bezeichnet), welche die Längen- und Breitenmessungen der Kelchblätter und Blütenblätter sind.

Der interessante Teil dieses Datensatzes ist, dass die drei Klassen etwas linear trennbar sind. Die Setosa -Klasse kann von den anderen beiden Klassen getrennt werden, indem eine gerade Linie im Diagramm zwischen ihnen gezeichnet wird. Die Virginica und Versicolor Klassen können nicht perfekt durch eine gerade Linie getrennt werden - obwohl es nahe ist. Dies macht es zu einem perfekten Kandidatendatensatz für die Klassifikationsanalyse, aber nicht so gut für die Clusteranalyse.

Die Beispieldaten waren bereits gekennzeichnet. Die rechte Spalte (Label) oben zeigt die Namen jeder Klasse der Irisblume.Der Klassenname wird als -Etikett oder als -Target bezeichnet. wird normalerweise einer Variablen namens y zugewiesen. Es ist im Grunde das Ergebnis oder das Ergebnis dessen, was vorhergesagt wird.

In Statistik und Modellierung wird es häufig als die abhängige Variable bezeichnet. Sie hängt von den Eingaben ab, die der Länge und Breite der Kelchblätter und der Länge und Breite der Blütenblätter entsprechen.

Vielleicht möchten Sie auch wissen, was an dem vorverarbeiteten Iris-Datensatz von Scikit im Vergleich zum ursprünglichen Datensatz anders ist. Um dies herauszufinden, müssen Sie die ursprüngliche Datendatei erhalten. Sie können eine Google-Suche nach iris dataset durchführen und diese herunterladen oder von einer der akademischen Institutionen anzeigen lassen.

Das Ergebnis, das normalerweise zuerst auftaucht, ist das von der University of California Irvine (UCI) gelernte Repositorium von Datensätzen. Der Iris-Datensatz im Originalzustand aus dem UCI-Repository für maschinelles Lernen ist auf der UCI-Website zu finden.

Wenn Sie es herunterladen, sollten Sie es mit einem beliebigen Texteditor anzeigen können. Wenn Sie die Daten in der Datei anzeigen, werden Sie feststellen, dass in jeder Zeile fünf Spalten vorhanden sind. Die ersten vier Spalten sind die Messungen (bezeichnet als die Features ) und die letzte Spalte ist das Label. Die Beschriftung unterscheidet sich zwischen der Original- und der Scikit-Version des Iris-Datasets.

Ein weiterer Unterschied ist die erste Zeile der Datendatei. Es enthält eine Kopfzeile, die von der Funktion scikit data-loading verwendet wird. Es hat keine Auswirkung auf die Algorithmen selbst.

Wenn Sie Funktionen auf Zahlen normieren, anstatt sie als Text zu speichern, wird die Verarbeitung der Algorithmen erleichtert - und sie ist wesentlich speicherökonomischer. Dies ist besonders offensichtlich, wenn Sie sehr große Datensätze mit vielen Funktionen ausführen - was in realen Szenarien häufig der Fall ist.

Hier sind Beispieldaten aus beiden Dateien. Alle Datenspalten sind bis auf Col5 identisch. Beachten Sie, dass Scikit Klassennamen mit numerischen Bezeichnungen hat. Die Originaldatei hat Beschriftungen.

Wie man Daten für Predictive Analysis vorbereitet - Dummies

Die Wahl des Herausgebers

Anzeigen von elektrischen Signalen an einem Oszilloskop - Dummies

Anzeigen von elektrischen Signalen an einem Oszilloskop - Dummies

Ein Oszilloskop ermöglicht das Anzeigen eines elektrischen Signals durch Anzeigen einer Spannung. variiert mit der Zeit als eine Spur über eine Anzeige. Die vertikale Achsenspannung zeigt die Größe der Spannung (auch Amplitude genannt) an, und die horizontale Achse repräsentiert die Zeit. (Denken Sie daran, Gleichungen in Mathematik-Klasse zu zeichnen? Nun, die Anzeige auf einem Bereich ist wirklich ...

Eintauchen in DX-ing - Dummies

Eintauchen in DX-ing - Dummies

Drücken Sie Ihre Station, um Kontakte über immer größere Entfernungen herzustellen (DX bedeutet entfernte Stationen ist die zweitälteste Aktivität im gesamten Amateurfunk. Irgendwo im Äther ist eine Station immer nur verlockend außer Reichweite und die Herausforderung, diese Station zu kontaktieren, ist der Zweck von DX-ing. Tausende von Schinken über ...

Steuern Sie Ihre Elektronik über einen Parallelport - Dummies

Steuern Sie Ihre Elektronik über einen Parallelport - Dummies

Werfen Sie nicht weg alter Computer! Wenn es einen Parallelport hat, können Sie damit Ihre elektronischen Gadgets steuern. Bis vor einigen Jahren waren alle Computer mit einem parallelen Anschluss ausgestattet, der hauptsächlich zum Anschluss an einen Drucker verwendet wurde. Heutzutage verbinden sich die meisten Drucker über USB-Ports mit Computern. Der Parallelport ...

Die Wahl des Herausgebers

Neuro-linguistisches Programmieren: Zu Deinem Selbst Selbst Seien Wahr - Attrappen

Neuro-linguistisches Programmieren: Zu Deinem Selbst Selbst Seien Wahr - Attrappen

Fahren nicht durch dein Leben mit einem Fuß auf der Bremse, weil du versuchst, den Erwartungen anderer Menschen gerecht zu werden. Persönliche Verantwortung und echtes Autofahren ist viel einfacher, wenn man versteht, wer man im Mittelpunkt steht und was man im Leben erreichen will. Sie können Maßnahmen ergreifen, wenn Sie ...

Bewegen Jenseits von Typ A: Abheben der Uhr - Dummies

Bewegen Jenseits von Typ A: Abheben der Uhr - Dummies

Typ A sind von der Zeit besessen. "Das nimmt zu viel Zeit in Anspruch" "Verdammt, es wird spät - ich werde nie pünktlich fertig sein." "Ich wünschte, sie würden sich beeilen. "Typ A hat ein beschleunigtes Zeitgefühl. Sie fühlen, wie die Zeit im Laufe des Tages immer mehr "abrutscht". Dies führt zu einem ...

Stimmung Störungen und ihre Behandlung Medikamente - Dummies

Stimmung Störungen und ihre Behandlung Medikamente - Dummies

Stimmungsstörungen, auch als affektive Störungen bekannt, sind eine Gruppe von Krankheiten gekennzeichnet durch eine deutliche Veränderung des emotionalen Zustandes einer Person. Die drei häufigsten Stimmungsstörungen sind bipolare Störung, Dysthymie und Major Depression. Stimmungsstörungen betreffen fast 21 Prozent der Erwachsenen in den Vereinigten Staaten. Die meisten Betroffenen finden jedoch ein gewisses Maß an ...

Die Wahl des Herausgebers

So ​​wählen Sie die von Ihnen benötigten AWS-Dienste aus - Attrappen

So ​​wählen Sie die von Ihnen benötigten AWS-Dienste aus - Attrappen

Denken Sie daran, dass Sie nur 12 Monate frei haben Entscheidungsprozess darüber, welche AWS-Dienste (Amazon Web Services) in Ihrem Unternehmen verwendet werden sollen. Zwölf Monate mögen sehr viel Zeit in Anspruch nehmen, aber Sie werden feststellen, dass es vor Ihren Augen verdunstet, wenn Sie versuchen, Ihre täglichen Aufgaben, Meetings, ... zu bewältigen.

Amazon Web Services für Dummies Cheat Sheet - Dummies

Amazon Web Services für Dummies Cheat Sheet - Dummies

Amazon Web Services (AWS) ist ein Cloud-Dienstanbieter, der bietet einfachen Zugriff auf eine Vielzahl von nützlichen Computerressourcen, die alle auf bedarfsgerechte, kosteneffiziente Weise angeboten werden. Wenn Sie ein IT-Praktiker sind, der bereit ist, Amazon Web Services zu nutzen, brechen Sie Ihre alten Anwendungsmuster-Gewohnheiten und implementieren Sie neue Ansätze, die AWS-Eigenschaften und ...

AWS-Sicherheitsprobleme - Dummies

AWS-Sicherheitsprobleme - Dummies

Für die Verwendung von AWS (Amazon Web Services) müssen Sie die Sicherheit Ihres Computers in einem Weg. Administratoren und Sicherheitsexperten können sich schnell verrückt machen, wenn sie versuchen, diese miteinander verbundenen Computer sicher zu halten, aber das ist Teil der Stellenbeschreibung. Sie müssen Best Practices bei der Sicherung der Computersysteme und der darin enthaltenen Daten befolgen.

Quelle Col1 Col2 Col3 Col4 Col5
Scikit 5. 1 3. 5 1. 4 0. 2 0
Original 5. 1 3. 5 1. 4 0. 2 Iris-Setosa
Scikit 7. 0 3. 2 4. 7 1. 4 1
Original 7. 0 3. 2 4. 7 1. 4 Iris-versicolor
Scikit 6. 3 3. 3 6. 0 2. 5 2 Original
6. 3 3. 3 6. 0 2. 5 Iris-virginica