Video: Xiaomi Mi Robot Vacuum Magnetband und Teppichstärke 2024
Rating-Daten haben ihre Grenzen beim maschinellen Lernen. Damit Empfehlungssysteme gut funktionieren, müssen sie sowohl über Sie als auch über andere Personen wissen, beides wie Sie. und anders als Sie selbst. Das Erlangen von Bewertungsdaten ermöglicht es einem Empfehlungssystem, von den Erfahrungen mehrerer Kunden zu lernen Ratingdaten könnten von einem Urteil (wie das Bewerten eines Produkts unter Verwendung von Sternen oder Zahlen) oder einem Fakt (ein binäres 1/0 einfach gibt an, dass Sie das Produkt gekauft, einen Film gesehen oder das Surfen auf einer bestimmten Webseite beendet haben.
Unabhängig von der Datenquelle oder dem Typ beziehen sich die Bewertungsdaten immer auf das Verhalten. Um einen Film bewerten zu können, müssen Sie sich entscheiden, ihn zu sehen, anzusehen und dann basierend auf Ihren Erfahrungen mit dem Film zu bewerten. Aktuelle Empfehlungssysteme lernen auf unterschiedliche Weise aus den Bewertungsdaten:
- Kollaboratives Filtern: Übereinstimmungen Bewerter auf der Grundlage von Film- oder Produktähnlichkeiten, die in der Vergangenheit verwendet wurden. gemocht von Leuten, die dir ähnlich sind, oder von ähnlichen Gegenständen, die du magst.
- Inhaltsbasierte Filterung: geht über die Tatsache hinaus, dass Sie einen Film angesehen haben. Es untersucht die Features in Bezug auf Sie und den Film, um festzustellen, ob eine Übereinstimmung vorhanden ist, basierend auf den größeren Kategorien, die die Features repräsentieren. Wenn Sie zum Beispiel eine Frau sind, die Actionfilme mag, wird der Empfehlungsvorschlag nach Vorschlägen suchen, die den Schnittpunkt dieser beiden Kategorien enthalten.
- Wissensbasierte Empfehlungen: Basierend auf Metadaten, z. B. von Nutzern ausgedrückten Präferenzen und Produktbeschreibungen. Es beruht auf maschinellem Lernen und ist effektiv, wenn Sie nicht genügend Verhaltensdaten haben, um Benutzer- oder Produkteigenschaften zu bestimmen. Dies wird als Kaltstart bezeichnet und stellt eine der schwierigsten Empfehlungsaufgaben dar, da Sie keinen Zugriff auf kollaborative Filterung oder inhaltsbasierte Filterung haben.
Bei der kollaborativen Filterung müssen Sie die Ähnlichkeit berechnen. Abgesehen von Euklidischen, Manhattan- und Tschebyscheff-Entfernungen wird im Rest dieser Information die Cosinus-Ähnlichkeit diskutiert. Cosinus-Ähnlichkeit misst den Winkel-Cosinus-Abstand zwischen zwei Vektoren, was wie ein schwieriges Konzept zu erfassen scheint, aber nur eine Möglichkeit ist, Winkel in Datenräumen zu messen.
Stellen Sie sich einen Raum vor, der aus Merkmalen besteht und zwei Punkte hat. Sie können die Entfernung zwischen den Punkten messen. Zum Beispiel könnten Sie die euklidische Distanz verwenden, die eine perfekte Wahl ist, wenn Sie nur wenige Dimensionen haben, die aber kläglich versagt, wenn Sie aufgrund des Fluchs der Dimensionalität mehrere Dimensionen haben.
Die Idee hinter der Kosinusentfernung besteht darin, den Winkel zu verwenden, der von den zwei Punkten erzeugt wird, die mit dem Raumursprung (dem Punkt, an dem alle Dimensionen null sind) verbunden sind. Wenn die Punkte nahe sind, ist der Winkel eng, egal wie viele Dimensionen es gibt. Wenn sie weit weg sind, ist der Winkel ziemlich groß.
Cosinus-Ähnlichkeit implementiert die Kosinus-Distanz als Prozentsatz und ist ziemlich effektiv, um zu sagen, ob ein Benutzer einem anderen ähnlich ist oder ob ein Film mit einem anderen assoziiert werden kann, weil dieselben Benutzer ihn bevorzugen. Im folgenden Beispiel werden die Filme mit den ähnlichsten Filmen zu Film 50, Star Wars, gefunden.
drucken (colnames (MovieLense [50]))
[1] "Star Wars (1977)"
similar_movies <- Ähnlichkeit (MovieLense [50],
MovieLense [-50],
method = "cosine",
was = "Gegenstände")
colnames (similar_movies) [die (ähnliche_filme> 0.70)]
[1] "Toy Story (1995)" < "Reich schlägt zurück, die (1980)"
[3] "Jäger der verlorenen Arche (1981)"
"Rückkehr der Jedi (1983)"