Inhaltsverzeichnis:
Video: Data Analysis in R by Dustin Tran 2024
sehen. Sie können Beispiele aus Ihren Daten einfach mit Hilfe von Berechnungen vergleichen, wenn Sie sie als Vektor betrachten. Die folgende Information beschreibt, wie man Ähnlichkeit zwischen Vektoren misst, um Aufgaben wie das Berechnen der Entfernung zwischen Vektoren für Lernzwecke auszuführen.
Ähnlichkeit verstehen
In einer Vektorform können Sie jede Variable in Ihren Beispielen als eine Reihe von Koordinaten sehen, wobei jede Variable auf eine Position in einer anderen Raumdimension verweist. Wenn ein Vektor zwei Elemente hat, also nur zwei Variablen hat, ist das Arbeiten mit ihm genauso wie das Prüfen der Position eines Elements auf einer Karte, indem die erste Zahl für die Position auf der Ost-West-Achse und die zweite auf der Nord-Achse verwendet wird. Südachse.
Zum Beispiel sind die Zahlen zwischen Klammern (1, 2) (3, 2) und (3, 3) alles Beispiele für Punkte. Jedes Beispiel ist eine geordnete Liste von Werten (ein Tupel genannt), die leicht lokalisiert und auf einer Karte gedruckt werden kann, wobei der erste Wert der Liste für x (die horizontale Achse) und der zweite für y (die vertikale Achse) verwendet wird. Das Ergebnis ist ein Streudiagramm.
Wenn Ihr Datensatz in Matrixform viele numerische Merkmale (die Spalten) hat, stellt die Anzahl der Features idealerweise die Dimensionen des Datenraums dar, während die Zeilen (die Beispiele) jeweils Punkt, der mathematisch ein Vektor ist. Wenn Ihr Vektor mehr als zwei Elemente hat, wird die Visualisierung mühsam, weil die Darstellung von Dimensionen über dem dritten nicht einfach ist (schließlich leben wir in einer dreidimensionalen Welt).
Sie können jedoch versuchen, mehr Dimensionalitäten durch einige Hilfsmittel zu vermitteln, z. B. durch die Verwendung von Größe, Form oder Farbe für andere Dimensionen. Klar, das ist keine einfache Aufgabe, und oft ist das Ergebnis weit davon entfernt, intuitiv zu sein. Sie können jedoch die Idee erfassen, wo sich die Punkte in Ihrem Datenraum befinden würden, indem Sie systematisch viele Diagramme drucken und dabei die Dimensionen zwei mal zwei berücksichtigen. Solche Diagramme werden Matrizen von Streudiagrammen genannt.
Mach dir keine Sorgen über Mehrdimensionalität. Sie erweitern die gelernten Regeln in zwei oder drei Dimensionen auf mehrere Dimensionen. Wenn also eine Regel in einem zweidimensionalen Raum funktioniert, funktioniert sie auch in mehreren Dimensionen. Daher beziehen sich alle Beispiele zuerst auf zweidimensionale Beispiele.
Berechnungsabstände für das Lernen
Ein Algorithmus kann lernen, indem er Vektoren von Zahlen verwendet, die Entfernungsmessungen verwenden. Oftmals ist der von Ihren Vektoren implizierte Raum ein metrischer, der ein Raum ist, dessen Abstände bestimmten Bedingungen entsprechen:
- Es gibt keine negativen Abstände, und Ihre Entfernung ist nur dann Null, wenn der Startpunkt und der Endpunkt zusammenfallen (genannt Nichtnegativität).
- Der Abstand ist derselbe, der von einem Punkt zum anderen geht und umgekehrt (genannt Symmetrie).
- Der Abstand zwischen einem Anfangspunkt und einem Endpunkt ist immer größer oder schlechter als der Abstand vom Anfangspunkt zum dritten Punkt und von dort zum Endpunkt (genannt Dreiecksungleichung < - was bedeutet, dass es keine Abkürzungen gibt). Entfernungen, die einen metrischen Raum messen, sind die euklidische Distanz, die Manhattan-Distanz und die Tschebyscheff-Distanz. Dies sind alle Entfernungen, die für numerische Vektoren gelten können.
Euklidische Entfernung
Die häufigste ist die euklidische Distanz, die auch als die l2-Norm von zwei Vektoren beschrieben wird (lesen Sie diese Diskussion von l1, l2 und Linfinity-Normen). In einer zweidimensionalen Ebene stellt sich die euklidische Entfernung als die gerade Linie dar, die zwei Punkte verbindet, und Sie berechnen sie als die Quadratwurzel der Summe der quadrierten Differenz zwischen den Elementen zweier Vektoren. Im vorherigen Plot kann die Euklidische Distanz zwischen den Punkten (1, 2) und (3, 3) in R als ((1-3) ^ 2 + (2-3) ^ 2) berechnet werden, was zu einer Abstand von ungefähr 2. 236.
Manhattan-Abstand
Ein weiteres nützliches Maß ist die Manhattan-Distanz (auch als die l1-Norm von zwei Vektoren beschrieben). Sie berechnen die Manhattan-Distanz, indem Sie den absoluten Wert der Differenz zwischen den Elementen der Vektoren aufsummieren. Wenn die euklidische Distanz die kürzeste Route ist, markiert die Manhattan-Distanz die längste Route und ähnelt den Richtungen eines Taxis, das sich in einer Stadt bewegt. (Die Entfernung wird auch Taxicab oder City-Block-Entfernung genannt.)
Zum Beispiel ist die Manhattan-Distanz zwischen den Punkten (1, 2) und (3, 3) abs (1-3) und abs (2-3).), was zu 3.
Chebyshev-Abstand
führt. Der Tschebyscheff-Abstand oder die maximale Metrik nimmt das Maximum der absoluten Differenz zwischen den Elementen der Vektoren ein. Es ist ein Abstandsmaß, das darstellen kann, wie sich ein König im Schachspiel bewegt, oder in der Lagerlogistik die Operationen, die ein Brückenkran benötigt, um eine Kiste von einem Ort zum anderen zu bewegen.
Beim maschinellen Lernen kann sich die Chebyshev-Distanz als nützlich erweisen, wenn Sie viele Dimensionen berücksichtigen müssen und die meisten davon irrelevant oder überflüssig sind (in Tschebyscheff wählen Sie einfach diejenige aus, deren absoluter Unterschied am größten ist). In dem oben verwendeten Beispiel ist die Entfernung einfach 2, das Maximum zwischen (1-3) und abs (2-3).