Wie man die Daten in ein R Classification Predictive Analytics Modell lädt - Dummies

Video: R tutorial: Cross-validation 2025

Der Datensatz, den wir analysieren, um eine Vorhersage zu treffen, ist der Seeds-Datensatz, der im UCI-Repository für maschinelles Lernen zu finden ist. Dieser Datensatz hat 210 Beobachtungen und 7 Attribute plus das Label. Das Label ist das erwartete Ergebnis und wird verwendet, um die Genauigkeit des Vorhersagemodells zu trainieren und zu bewerten.

Das Ergebnis, das Sie vorhersagen möchten, ist der Typ des Seeds, das es ist (Attribut 8), wobei die Werte der sieben Attribute gegeben sind. Die drei möglichen Werte für den Keimtyp sind mit 1, 2 und 3 bezeichnet und repräsentieren die Weizensorten Kama, Rosa und Canadian.

Die Attribute in der Reihenfolge ihrer Spalten:

Fläche
Umfang
Kompaktheit
Länge des Kernels
Breite des Kerns
Asymmetriekoeffizient > length of kernel groove
class of wheat
Um das Dataset aus dem UCI-Repository zu holen und in den Speicher zu laden, geben Sie den folgenden Befehl in die Konsole ein:

>> Samen <-

lesen. csv (" // archiv. ics. uci. edu / ml / maschine -lerndatenbanken / 00236 / seeds_dataset. txt", header = FALSCH, sep = ", as. ist = WAHR)

Sie sehen, dass der Datensatz wurde als Datenrahmenvariable

seed

in den Arbeitsbereich geladen (oben rechts). Klicken Sie auf die seed -Variable, um die Datenwerte in der Quelle anzuzeigen. Fenster (oben links): So sehen die Daten im Quellfenster aus.

Weitere Informationen zu den gerade geladenen Daten finden Sie in der Zusammenfassung () Funktion. >> Zusammenfassung (Samen) V1 V2 V3 Min.: 10. 59 Min.: 12. 41 Min.: 0. 8081 1. Qu.: 12. 27 1. Qu.: 13. 45 1. Qu.: 0 8569 Median: 14. 36 Median: 14. 32 Median: 0. 8734 Mittelwert: 14. 85 Mittelwert: 14. 56 Mittelwert: 0. 8710 3. Qu.: 17. 30 3. Qu.: 15. 71 3. Qu.: 0. 8878 Max.: 21. 18 Max.: 17. 25 Max.: 0. 9183 …