Zuhause Persönliche Finanzen Wie man Daten für Predictive Analysis vorbereitet - Dummies

Wie man Daten für Predictive Analysis vorbereitet - Dummies

Inhaltsverzeichnis:

Video: Moderation (Interaktion) in Excel rechnen und interpretieren - Daten analysieren in Excel (23) 2025

Video: Moderation (Interaktion) in Excel rechnen und interpretieren - Daten analysieren in Excel (23) 2025
Anonim

Wenn Sie eine neue Programmiersprache lernen, ist es üblich, das Programm "Hallo Welt" zu schreiben. Für maschinelles Lernen und prädiktive Analytik ist das Erstellen eines Modells zur Klassifizierung des Iris-Datasets das entsprechende "Hello World" -Programm. Dies ist ein recht einfaches Beispiel, aber es ist sehr effektiv, um die Grundlagen des maschinellen Lernens und der vorausschauenden Analyse zu vermitteln.

Wie Sie das Beispiel-Dataset erhalten

Um unser Vorhersagemodell zu erstellen, müssen Sie das Beispiel-Iris-Dataset herunterladen. Dieser Datensatz ist aus vielen Quellen frei verfügbar, insbesondere an akademischen Einrichtungen, die Abteilungen für maschinelles Lernen haben. Glücklicherweise waren die Leute nett genug, einige Beispieldatensätze und Datenladefunktionen zusammen mit ihrem Paket aufzunehmen. Für die Zwecke dieser Beispiele müssen Sie nur ein paar einfache Codezeilen ausführen, um die Daten zu laden.

Wie man Ihre Daten beschriftet

Hier ist eine Beobachtung und ihre Merkmale aus jeder Klasse des Iris Flower Datensatzes.

Kelchblattlänge Kelchblattbreite Blütenblattlänge Blütenblattbreite Zielklasse / Etikett
5. 1 3. 5 1. 4 0. 2 Setosa (0)
7. 0 3. 2 4. 7 1. 4 Versicolor (1)
6. 3 3. 3 6. 0 2. 5 Virginica (2)

Der Iris Flower Datensatz ist ein reiner multivariater Datensatz von drei Klassen der Irisblume ( Iris setosa, Iris virginica, und Iris versicolor ) Ronald Fisher in seinem Artikel von 1936 "Die Verwendung von mehreren Messungen in taxonomischen Problemen. "Dieser Datensatz ist vor allem für seinen umfangreichen Einsatz in der akademischen Welt für maschinelles Lernen und Statistiken bekannt.

Der Datensatz besteht aus insgesamt 150 Instanzen mit jeweils 50 Instanzen aus jeder der 3 Klassen der Irisblume. Die Probe hat 4 Merkmale (auch allgemein als Attribute bezeichnet), welche die Längen- und Breitenmessungen der Kelchblätter und Blütenblätter sind.

Der interessante Teil dieses Datensatzes ist, dass die drei Klassen etwas linear trennbar sind. Die Setosa -Klasse kann von den anderen beiden Klassen getrennt werden, indem eine gerade Linie im Diagramm zwischen ihnen gezeichnet wird. Die Virginica und Versicolor Klassen können nicht perfekt durch eine gerade Linie getrennt werden - obwohl es nahe ist. Dies macht es zu einem perfekten Kandidatendatensatz für die Klassifikationsanalyse, aber nicht so gut für die Clusteranalyse.

Die Beispieldaten waren bereits gekennzeichnet. Die rechte Spalte (Label) oben zeigt die Namen jeder Klasse der Irisblume.Der Klassenname wird als -Etikett oder als -Target bezeichnet. wird normalerweise einer Variablen namens y zugewiesen. Es ist im Grunde das Ergebnis oder das Ergebnis dessen, was vorhergesagt wird.

In Statistik und Modellierung wird es häufig als die abhängige Variable bezeichnet. Sie hängt von den Eingaben ab, die der Länge und Breite der Kelchblätter und der Länge und Breite der Blütenblätter entsprechen.

Vielleicht möchten Sie auch wissen, was an dem vorverarbeiteten Iris-Datensatz von Scikit im Vergleich zum ursprünglichen Datensatz anders ist. Um dies herauszufinden, müssen Sie die ursprüngliche Datendatei erhalten. Sie können eine Google-Suche nach iris dataset durchführen und diese herunterladen oder von einer der akademischen Institutionen anzeigen lassen.

Das Ergebnis, das normalerweise zuerst auftaucht, ist das von der University of California Irvine (UCI) gelernte Repositorium von Datensätzen. Der Iris-Datensatz im Originalzustand aus dem UCI-Repository für maschinelles Lernen ist auf der UCI-Website zu finden.

Wenn Sie es herunterladen, sollten Sie es mit einem beliebigen Texteditor anzeigen können. Wenn Sie die Daten in der Datei anzeigen, werden Sie feststellen, dass in jeder Zeile fünf Spalten vorhanden sind. Die ersten vier Spalten sind die Messungen (bezeichnet als die Features ) und die letzte Spalte ist das Label. Die Beschriftung unterscheidet sich zwischen der Original- und der Scikit-Version des Iris-Datasets.

Ein weiterer Unterschied ist die erste Zeile der Datendatei. Es enthält eine Kopfzeile, die von der Funktion scikit data-loading verwendet wird. Es hat keine Auswirkung auf die Algorithmen selbst.

Wenn Sie Funktionen auf Zahlen normieren, anstatt sie als Text zu speichern, wird die Verarbeitung der Algorithmen erleichtert - und sie ist wesentlich speicherökonomischer. Dies ist besonders offensichtlich, wenn Sie sehr große Datensätze mit vielen Funktionen ausführen - was in realen Szenarien häufig der Fall ist.

Hier sind Beispieldaten aus beiden Dateien. Alle Datenspalten sind bis auf Col5 identisch. Beachten Sie, dass Scikit Klassennamen mit numerischen Bezeichnungen hat. Die Originaldatei hat Beschriftungen.

Wie man Daten für Predictive Analysis vorbereitet - Dummies

Die Wahl des Herausgebers

Auflistung Vereinbarungen über die Immobilienlizenz Prüfung - Dummies

Auflistung Vereinbarungen über die Immobilienlizenz Prüfung - Dummies

Listing-Vereinbarungen werden auf der Immobilien abgedeckt werden Lizenzprüfung. Eine Listungsvereinbarung stellt eine Agenturbeziehung zwischen einem Agenten und einem Grundstücksverkäufer her. Der Vertreter verpflichtet sich, den Verkäufer bei der Vermarktung der Immobilie zu vertreten. Hier sind die Namen und Beschreibungen der vier Arten von Listing-Vereinbarungen in der Reihenfolge, in der sie sind ...

Immobilien-Lizenz-Prüfung: 7 Verwirrende Wortpaare - Dummies

Immobilien-Lizenz-Prüfung: 7 Verwirrende Wortpaare - Dummies

Bevor Sie Ihre Immobilienlizenz nehmen Es ist wichtig, dass Sie den Unterschied zwischen ähnlich klingenden Begriffen verstehen. Die folgenden Immobilienbegriffe sind am häufigsten verwirrt; Holen Sie sich diese auswendig und Sie sind auf dem Weg zu mehr richtigen Antworten. Eigentumswohnung / Genossenschaft: Ein Eigentümer einer Eigentumswohnung besitzt tatsächlich Immobilien. Dieser Besitz ist in der Regel der Luftraum ...

Hypothek Akzeptanz Überlegungen zur Immobilienlizenz Prüfung - Dummies

Hypothek Akzeptanz Überlegungen zur Immobilienlizenz Prüfung - Dummies

Die Immobilienlizenz Prüfung wird Fragen zu Hypotheken und Kreditgebern. Ein primärer Kreditgeber hat zwei Überlegungen, wenn er einen Kredit für den Kauf oder die Refinanzierung von Immobilien vergibt: den Wert der Immobilie und die Fähigkeit des Kreditnehmers, die Schulden zu tilgen. Bei der Überprüfung des Wertes der Immobilie, ...

Die Wahl des Herausgebers

GED Fragen der wissenschaftlichen Praxis: Arbeit, Bewegung und Kraft - Dummies

GED Fragen der wissenschaftlichen Praxis: Arbeit, Bewegung und Kraft - Dummies

Die Gesetze von Physik beeinflusst alle Arten von alltäglichen Aktivitäten, vom Autofahren bis zum Baseballspiel. Es überrascht daher nicht, dass sich einige Fragen zum GED Science-Test mit Konzepten wie Arbeit, Bewegung und Kraft befassen. In den folgenden Übungsfragen müssen Sie sowohl Theorie als auch gesunden Menschenverstand anwenden, um ...

GED Beispielfragen: Argumentieren durch Sprachkunst Lesen von technischen Informationen - Dummies

GED Beispielfragen: Argumentieren durch Sprachkunst Lesen von technischen Informationen - Dummies

Zu den Begründungen Durch die Sprachabteilung der GED können Sie gebeten werden, Fragen zu einer technischen Passage zu beantworten. Dies könnte Anweisungen zur Fertigstellung enthalten, wie die folgenden. Die Fragen in diesem Artikel beziehen sich auf den folgenden Auszug aus Russell Harts Fotografie für Dummies, 2. Auflage (Wiley). Was ist das Geheimnis für ...?

GED Beispielfragen: Kurze wissenschaftliche Antwortfragen - Dummys

GED Beispielfragen: Kurze wissenschaftliche Antwortfragen - Dummys

Irgendwann während des Science-Teils der GEE-Test, werden Sie gebeten, eine kurze Antwort zu verfassen. Sie werden eine Passage erhalten und eine Frage stellen, auf die Sie antworten müssen. Machen Sie Ihre Antwort klar und prägnant. Kurzer Antwortdurchgang Jeder kennt Cheddar-Käse. Leute setzen ...

Die Wahl des Herausgebers

Stärkung des Selbstwertgefühls für Dummies Cheat Sheet (UK Edition) - Dummies

Stärkung des Selbstwertgefühls für Dummies Cheat Sheet (UK Edition) - Dummies

Selbstzweifel und schlechte Selbstwertschätzung scheinen Hand in Hand mit dem Menschsein zu gehen. Selbst wenn Sie im Allgemeinen gesund und ein gutes Selbstwertgefühl haben, haben Sie wahrscheinlich Zeiten in Ihrem Leben, an denen Sie sich unwohl fühlen und Gedanken und Gedanken über sich selbst verunglimpfen. Um zu helfen, halten Sie diesen Spickzettel, damit Sie ein paar Tipps und Hinweise haben ...

Antipsychotika und die Behandlung der bipolaren Störung - Dummies

Antipsychotika und die Behandlung der bipolaren Störung - Dummies

Atypische Antipsychotika (atypische Neuroleptika oder Antipsychotika der zweiten Generation) ursprünglich formuliert, um Psychose bei Schizophrenie zu behandeln, aber diese Klasse von Medikamenten hat sich auch als wirksam bei der Verringerung der Manie und Augmentierung Antidepressiva Behandlung erwiesen. Die atypische oder zweite Generation stammt aus der Tatsache, dass diese neuere Art von Antipsychotika anders funktioniert als der ältere Standard oder Neuroleptika der ersten Generation, ...

Verwaltung von Angst mit Achtsamkeit für Dummies Cheat Sheet - Dummies

Verwaltung von Angst mit Achtsamkeit für Dummies Cheat Sheet - Dummies

Sie möchten mehr darüber erfahren, wie Sie Ihre Angst mit Achtsamkeit? Sieh dir den Spickzettel an und entdecke die häufigsten Ursachen von Angstzuständen. Versuchen Sie eine kurze Achtsamkeitsübung, die Ihrer Angst helfen kann. Erkunde Wege, wie du deine ängstlichen Gedanken achtsam handhaben kannst. Finden Sie einfache Möglichkeiten heraus, jeden Tag aufmerksam zu sein. Dieser Spickzettel ...

Quelle Col1 Col2 Col3 Col4 Col5
Scikit 5. 1 3. 5 1. 4 0. 2 0
Original 5. 1 3. 5 1. 4 0. 2 Iris-Setosa
Scikit 7. 0 3. 2 4. 7 1. 4 1
Original 7. 0 3. 2 4. 7 1. 4 Iris-versicolor
Scikit 6. 3 3. 3 6. 0 2. 5 2 Original
6. 3 3. 3 6. 0 2. 5 Iris-virginica