Video: R tutorial: Cross-validation 2024
Der Datensatz, den wir analysieren, um eine Vorhersage zu treffen, ist der Seeds-Datensatz, der im UCI-Repository für maschinelles Lernen zu finden ist. Dieser Datensatz hat 210 Beobachtungen und 7 Attribute plus das Label. Das Label ist das erwartete Ergebnis und wird verwendet, um die Genauigkeit des Vorhersagemodells zu trainieren und zu bewerten.
Das Ergebnis, das Sie vorhersagen möchten, ist der Typ des Seeds, das es ist (Attribut 8), wobei die Werte der sieben Attribute gegeben sind. Die drei möglichen Werte für den Keimtyp sind mit 1, 2 und 3 bezeichnet und repräsentieren die Weizensorten Kama, Rosa und Canadian.
Die Attribute in der Reihenfolge ihrer Spalten:
-
Fläche
-
Umfang
-
Kompaktheit
-
Länge des Kernels
-
Breite des Kerns
-
Asymmetriekoeffizient > length of kernel groove
-
class of wheat
-
Um das Dataset aus dem UCI-Repository zu holen und in den Speicher zu laden, geben Sie den folgenden Befehl in die Konsole ein:
Sie sehen, dass der Datensatz wurde als Datenrahmenvariableseed
in den Arbeitsbereich geladen (oben rechts). Klicken Sie auf die seed -Variable, um die Datenwerte in der Quelle anzuzeigen. Fenster (oben links): So sehen die Daten im Quellfenster aus.