Vorbereiten der Daten in R Regression für Predictive Analytics - Dummies

Video: Datenimport in R 2025

Sie müssen die Daten in eine Form bringen, mit der der Algorithmus ein prädiktives analytisches Modell erstellen kann. Dazu müssen Sie sich etwas Zeit nehmen, um die Daten zu verstehen und die Struktur der Daten zu kennen. Geben Sie die Funktion ein, um die Struktur der Daten herauszufinden. Der Befehl und seine Ausgabe sehen wie folgt aus: >> str (autos) 'Daten. Rahmen ': 398 obs. von 9 Variablen: $ V1: num 18 15 18 16 17 15 14 14 14 15 … $ V2: int 8 8 8 8 8 8 8 8 8 8 … $ V3: num 307 350 318 304 302 429 454 440 455 390 … $ V4: chr "130. 0" "165. 0" "150. 0" "150. 0" … $ V5: num 3504 3693 3436 3433 3449 … $ V6: num 12 11. 5 11 12 10. 5 10 9 8 5 10 8. 5 … $ V7: int 70 70 70 70 70 70 70 70 70 70 … $ V8: int 1 1 1 1 1 1 1 1 1 1 … $ V9: Faktor w / 305 Stufen "amc ambassador brougham", …:

50 37 232 15 162 142 55 224 242 2 …

Wenn Sie sich die Struktur ansehen, können Sie feststellen, dass einige Daten vorbereitet und bereinigt werden müssen. Hier ist eine Liste der benötigten Aufgaben:

Benennen Sie die Spaltennamen um.

Dies ist nicht unbedingt erforderlich, aber für die Zwecke dieses Beispiels ist es besser, Spaltennamen zu verwenden, die Sie verstehen und sich daran erinnern können.

Ändern Sie den Datentyp von V4 (
PS ) in einen Datentyp numerisch . In diesem Beispiel ist PS ein fortlaufender numerischer Wert und kein Zeichendatentyp.

Behandle fehlende Werte.
Hier hat Pferdestärke sechs fehlende Werte.
Ändern Sie die Attribute mit diskreten Werten in Faktoren.
Hier haben Zylinder, Modelljahr und Ursprung diskrete Werte.

Verwerfen Sie das Attribut V9 (
Fahrzeugname ). Hier fügt der Name des Fahrzeugs dem von Ihnen erstellten Modell keinen Wert hinzu. Wenn das Ursprungsattribut nicht angegeben wurde, hätten Sie den Ursprung aus dem Autonamenattribut ableiten können.

Um die Spalten umzubenennen, geben Sie den folgenden Code ein: >> colnames (autos) <-

c ("mpg", "Zylinder", "Displacement", "Pferdestärke", "weight", "acceleration", "modelYear", "origin",

"carName")

Ändern Sie als Nächstes den Datentyp der Pferdestärke mit folgendem Code in numerisch: >> autos $ horsepower <- wie. numeric (autos $ horsepower)

Das Programm wird sich beschweren, weil nicht alle Werte in PS String-Repräsentationen von Zahlen sind. Es gab einige fehlende Werte, die als "?" "Charakter. Das ist in Ordnung für jetzt, weil R jede Instanz von konvertiert? in NA.

Ein gängiger Weg, um die fehlenden Werte von stetigen Variablen zu behandeln, besteht darin, jeden fehlenden Wert durch den Mittelwert der gesamten Spalte zu ersetzen. Die folgende Codezeile macht das: >> Autos $ Pferdestärke [ist.na (autos $ Pferdestärke)] <- mean (Autos $ Pferdestärke, na. rm = WAHR)

Es ist wichtig, na zu haben. rm-TRUE in der Mittelwertfunktion. Sie weist die Funktion an, in ihrer Berechnung keine Spalten mit Nullwerten zu verwenden. Ohne sie kehrt die Funktion zurück.

Ändern Sie als Nächstes die Attribute mit diskreten Werten in Faktoren. Drei Attribute wurden als diskret identifiziert. Die folgenden drei Codezeilen ändern die Attribute. >> autos $ origin autos $ modellJahr autos $ zylinder <- Faktor (autos $ zylinder)

Entfernen Sie schließlich das Attribut aus dem Datenrahmen mit dieser Codezeile: >> autos $ carName <- nULL < An diesem Punkt haben Sie die Daten für den Modellierungsprozess vorbereitet. Das Folgende ist eine Ansicht der Struktur nach dem Datenvorbereitungsprozess: >> str (autos) 'Daten. Rahmen ': 398 obs. von 8 Variablen: $ mpg: num 18 15 18 16 17 15 14 14 14 15 … $ Zylinder: Faktor mit 5 Stufen "3", "4", "5", "6", …:

5 5 5 5 5 5 5 5 5 5 … $ Verschiebung: num 307 350 318 304 302 429 454 440 455 390 … $ PS: num 130 165 150 150 140 198 220 215 225 190 … $ Gewicht: num 3504 3693 3436 3433 3449 … $ Beschleunigung: num 12 11. 5 11 12 10. 5 10 9 8. 5 10 8. 5 … $ modelljahr: Faktor mit 13 Stufen "70", "71", "72", …:

1 1 1 1 1 1 1 1 1 1 1 … $ Herkunft: Faktor mit 3 Stufen "1", "2", "3":

1 1 1 1 1 1 1 1 1 1 …