Zuhause Persönliche Finanzen Messung der Ähnlichkeit zwischen Vektoren für maschinelles Lernen - Dummies

Messung der Ähnlichkeit zwischen Vektoren für maschinelles Lernen - Dummies

Inhaltsverzeichnis:

Video: Data Analysis in R by Dustin Tran 2024

Video: Data Analysis in R by Dustin Tran 2024
Anonim

sehen. Sie können Beispiele aus Ihren Daten einfach mit Hilfe von Berechnungen vergleichen, wenn Sie sie als Vektor betrachten. Die folgende Information beschreibt, wie man Ähnlichkeit zwischen Vektoren misst, um Aufgaben wie das Berechnen der Entfernung zwischen Vektoren für Lernzwecke auszuführen.

Ähnlichkeit verstehen

In einer Vektorform können Sie jede Variable in Ihren Beispielen als eine Reihe von Koordinaten sehen, wobei jede Variable auf eine Position in einer anderen Raumdimension verweist. Wenn ein Vektor zwei Elemente hat, also nur zwei Variablen hat, ist das Arbeiten mit ihm genauso wie das Prüfen der Position eines Elements auf einer Karte, indem die erste Zahl für die Position auf der Ost-West-Achse und die zweite auf der Nord-Achse verwendet wird. Südachse.

Beispiele für Werte, die als Punkte in einem Diagramm dargestellt werden.

Zum Beispiel sind die Zahlen zwischen Klammern (1, 2) (3, 2) und (3, 3) alles Beispiele für Punkte. Jedes Beispiel ist eine geordnete Liste von Werten (ein Tupel genannt), die leicht lokalisiert und auf einer Karte gedruckt werden kann, wobei der erste Wert der Liste für x (die horizontale Achse) und der zweite für y (die vertikale Achse) verwendet wird. Das Ergebnis ist ein Streudiagramm.

Wenn Ihr Datensatz in Matrixform viele numerische Merkmale (die Spalten) hat, stellt die Anzahl der Features idealerweise die Dimensionen des Datenraums dar, während die Zeilen (die Beispiele) jeweils Punkt, der mathematisch ein Vektor ist. Wenn Ihr Vektor mehr als zwei Elemente hat, wird die Visualisierung mühsam, weil die Darstellung von Dimensionen über dem dritten nicht einfach ist (schließlich leben wir in einer dreidimensionalen Welt).

Sie können jedoch versuchen, mehr Dimensionalitäten durch einige Hilfsmittel zu vermitteln, z. B. durch die Verwendung von Größe, Form oder Farbe für andere Dimensionen. Klar, das ist keine einfache Aufgabe, und oft ist das Ergebnis weit davon entfernt, intuitiv zu sein. Sie können jedoch die Idee erfassen, wo sich die Punkte in Ihrem Datenraum befinden würden, indem Sie systematisch viele Diagramme drucken und dabei die Dimensionen zwei mal zwei berücksichtigen. Solche Diagramme werden Matrizen von Streudiagrammen genannt.

Mach dir keine Sorgen über Mehrdimensionalität. Sie erweitern die gelernten Regeln in zwei oder drei Dimensionen auf mehrere Dimensionen. Wenn also eine Regel in einem zweidimensionalen Raum funktioniert, funktioniert sie auch in mehreren Dimensionen. Daher beziehen sich alle Beispiele zuerst auf zweidimensionale Beispiele.

Berechnungsabstände für das Lernen

Ein Algorithmus kann lernen, indem er Vektoren von Zahlen verwendet, die Entfernungsmessungen verwenden. Oftmals ist der von Ihren Vektoren implizierte Raum ein metrischer, der ein Raum ist, dessen Abstände bestimmten Bedingungen entsprechen:

  • Es gibt keine negativen Abstände, und Ihre Entfernung ist nur dann Null, wenn der Startpunkt und der Endpunkt zusammenfallen (genannt Nichtnegativität).
  • Der Abstand ist derselbe, der von einem Punkt zum anderen geht und umgekehrt (genannt Symmetrie).
  • Der Abstand zwischen einem Anfangspunkt und einem Endpunkt ist immer größer oder schlechter als der Abstand vom Anfangspunkt zum dritten Punkt und von dort zum Endpunkt (genannt Dreiecksungleichung < - was bedeutet, dass es keine Abkürzungen gibt). Entfernungen, die einen metrischen Raum messen, sind die euklidische Distanz, die Manhattan-Distanz und die Tschebyscheff-Distanz. Dies sind alle Entfernungen, die für numerische Vektoren gelten können.

Euklidische Entfernung

Die häufigste ist die euklidische Distanz, die auch als die l2-Norm von zwei Vektoren beschrieben wird (lesen Sie diese Diskussion von l1, l2 und Linfinity-Normen). In einer zweidimensionalen Ebene stellt sich die euklidische Entfernung als die gerade Linie dar, die zwei Punkte verbindet, und Sie berechnen sie als die Quadratwurzel der Summe der quadrierten Differenz zwischen den Elementen zweier Vektoren. Im vorherigen Plot kann die Euklidische Distanz zwischen den Punkten (1, 2) und (3, 3) in R als ((1-3) ^ 2 + (2-3) ^ 2) berechnet werden, was zu einer Abstand von ungefähr 2. 236.

Manhattan-Abstand

Ein weiteres nützliches Maß ist die Manhattan-Distanz (auch als die l1-Norm von zwei Vektoren beschrieben). Sie berechnen die Manhattan-Distanz, indem Sie den absoluten Wert der Differenz zwischen den Elementen der Vektoren aufsummieren. Wenn die euklidische Distanz die kürzeste Route ist, markiert die Manhattan-Distanz die längste Route und ähnelt den Richtungen eines Taxis, das sich in einer Stadt bewegt. (Die Entfernung wird auch Taxicab oder City-Block-Entfernung genannt.)

Zum Beispiel ist die Manhattan-Distanz zwischen den Punkten (1, 2) und (3, 3) abs (1-3) und abs (2-3).), was zu 3.

Chebyshev-Abstand

führt. Der Tschebyscheff-Abstand oder die maximale Metrik nimmt das Maximum der absoluten Differenz zwischen den Elementen der Vektoren ein. Es ist ein Abstandsmaß, das darstellen kann, wie sich ein König im Schachspiel bewegt, oder in der Lagerlogistik die Operationen, die ein Brückenkran benötigt, um eine Kiste von einem Ort zum anderen zu bewegen.

Beim maschinellen Lernen kann sich die Chebyshev-Distanz als nützlich erweisen, wenn Sie viele Dimensionen berücksichtigen müssen und die meisten davon irrelevant oder überflüssig sind (in Tschebyscheff wählen Sie einfach diejenige aus, deren absoluter Unterschied am größten ist). In dem oben verwendeten Beispiel ist die Entfernung einfach 2, das Maximum zwischen (1-3) und abs (2-3).

Messung der Ähnlichkeit zwischen Vektoren für maschinelles Lernen - Dummies

Die Wahl des Herausgebers

Tipps für die Auswahl von Feldtypen in Access 2013 - Dummies

Tipps für die Auswahl von Feldtypen in Access 2013 - Dummies

Beim Entwerfen einer Datenbank in Access 2013 Entscheiden Sie, welcher Typ jedes Feld sein wird. Access bietet 12 Feldtypen, aus denen Sie auswählen können. Wählen Sie den Feldtyp aus, der am besten die Daten beschreibt, die Sie im Feld speichern möchten, und das funktioniert für den Analysetyp, den Sie benötigen, um die ...

Nützliche Funktionen in Access 2007 - Dummies

Nützliche Funktionen in Access 2007 - Dummies

Obwohl Access 2007 über mehrere integrierte Funktionen verfügt, dürfen Sie nicht mehr verwenden. als ein paar von ihnen in Ihren Berichten. Dennoch, wenn Sie nicht wissen, dass sie verfügbar sind, könnten Sie viele der Funktionen vermissen, die Sie wirklich nützlich finden könnten. Obwohl diese Liste weit davon entfernt ist, umfassend zu sein, zeigt diese Tabelle eine Reihe von Funktionen ...

Sichern Ihrer Access 2003-Datenbank als MDE-Datei - Dummies

Sichern Ihrer Access 2003-Datenbank als MDE-Datei - Dummies

Wenn Sie eine Access 2003-Datenbank erstellen. andere Leute - besonders Leute, die ein wenig ratlos über Access sind - Sie können Ihre Datenbank sperren, um andere Benutzer daran zu hindern, Änderungen vorzunehmen, die sie möglicherweise beschädigen. Sie können Sicherheit in Form von Benutzernamen und Passwörtern hinzufügen, aber ...

Die Wahl des Herausgebers

Ruby Datentypen und Variablen - Dummys

Ruby Datentypen und Variablen - Dummys

Variablen in Ruby werden mit alphanumerischen Zeichen und dem Unterstrich (_) bezeichnet. und kann nicht mit einer Zahl oder einem Großbuchstaben beginnen. Variablen, wie in der Algebra, sind Schlüsselwörter, die verwendet werden, um Datenwerte für eine spätere Verwendung zu speichern. Obwohl sich die in einer Variablen gespeicherten Daten ändern können, ist der Variablenname immer derselbe. Denken Sie an ...

Mit Array und Hash Built-in und verwandten Methoden - Dummies

Mit Array und Hash Built-in und verwandten Methoden - Dummies

Ruby hat viele integrierte Klassen, aber vielleicht die nützlichsten Objekte für die Speicherung anderer Daten sind die Container-Klassen Array und Hash. Sie können viel Zeit beim Codieren sparen, wenn Sie sich daran erinnern, dass jede dieser Klassen viele nützliche Methoden für den Zugriff und die Manipulation ihrer Inhalte hat. Array-Grundlagen Verwenden Sie Arrays für Listen ...

Wie man Scratch-Grafiken in andere Anwendungen exportiert - Dummies

Wie man Scratch-Grafiken in andere Anwendungen exportiert - Dummies

Scratch-Benutzer können Grafiken für andere Anwendungen entwerfen und exportieren wie Microsoft Word und PowerPoint. Eine einfach zu findende Schaltfläche (aus Datei hochladen) ermöglicht es Benutzern, Grafiken in Scratch zu importieren, aber viele Benutzer wissen nicht, wie sie Grafiken auf einem Computer speichern und die Bilder wie andere Grafikdateien exportieren können. Öffnen Sie ein Scratch-Projekt. ...

Die Wahl des Herausgebers

Hinzufügen von Fußnoten und Endnoten in Word 2016 - dummies

Hinzufügen von Fußnoten und Endnoten in Word 2016 - dummies

Fußnoten und Endnoten in Word 2016 enthalten Bonusinformationen, eine Klarstellung oder beiseite, um Text auf einer Seite zu ergänzen. Jede ist im Text durch eine hochgestellte Zahl oder einen Buchstaben gekennzeichnet1. 1 Siehe? Es klappt! Der Unterschied zwischen einer Fußnote und einer Endnote liegt in der Platzierung: Eine Fußnote wird unten angezeigt ...

Wie man Datum und Uhrzeit in Word 2013 Dokument hinzufügt - Dummies

Wie man Datum und Uhrzeit in Word 2013 Dokument hinzufügt - Dummies

Sie haben wahrscheinlich Leute Sie möchten das aktuelle Datum und die aktuelle Uhrzeit kennen oder möchten einfach das Datum oder die Uhrzeit oder beide in Ihr Word 2013-Dokument einfügen. Bis auf wenige Ausnahmen sind Zeitreisende die einzigen, die sich für das laufende Jahr erkundigen. Aber vielleicht brauchen Sie es in Ihrem Dokument ...

Wie man Datum und Uhrzeit zu einem Word 2010 Dokument hinzufügt - Dummies

Wie man Datum und Uhrzeit zu einem Word 2010 Dokument hinzufügt - Dummies

Sie wahrscheinlich haben Leute, die das aktuelle Datum und die Uhrzeit in Ihrem Word 2010-Dokument kennen möchten, oder vielleicht möchten Sie nur das Datum oder die Uhrzeit (oder beides) in Ihr Dokument einfügen. Word hat viele Tricks, um es möglich zu machen. Festhalten des aktuellen Datums oder der aktuellen Uhrzeit in einem Word-Dokument Abgesehen von der Suche ...