Video: Creating an SEO strategy (with Webmaster Tools!) 2024
Sowohl Clustering als auch Klassifizierung basieren auf der Berechnung der Ähnlichkeit oder Differenz zwischen zwei Datenpunkten. Wenn Ihr Datensatz numerisch ist - nur aus Zahlenfeldern und Werten besteht - und auf einem n -Dimensionalen Diagramm dargestellt werden kann, gibt es verschiedene geometrische Metriken, mit denen Sie Ihre mehrdimensionalen Daten skalieren können. Daten.
Ein n-dimensionaler Plot ist ein mehrdimensionales Streudiagramm, mit dem Sie die n Anzahl der Datenabmessungen darstellen können.
Einige populäre geometrische Metriken, die zur Berechnung der Entfernungen zwischen Datenpunkten verwendet werden, umfassen Euklidische, Manhattan- oder Minkowski-Abstandsmetriken. Diese Metriken sind nur verschiedene geometrische Funktionen, die zum Modellieren von Entfernungen zwischen Punkten nützlich sind. Die Euklidische Metrik ist ein Maß für die Entfernung zwischen Punkten, die auf einer Euklidischen Ebene aufgetragen sind.
Die Manhattan-Metrik ist ein Maß für den Abstand zwischen Punkten, an dem die Entfernung als Summe der absoluten Werte der Differenzen zwischen den kartesischen Koordinaten zweier Punkte berechnet wird. Die Minkowski-Abstandsmetrik ist eine Verallgemeinerung der Euklidischen und Manhattan-Abstandsmetriken. Sehr oft können diese Metriken verwendet werden - austauschbar.
Wenn Ihre Daten numerisch, aber nicht plottbar sind (z. B. Kurven anstelle von Punkten), können Sie Ähnlichkeitswerte basierend auf Differenzen zwischen Daten generieren, anstatt die tatsächlichen Werte von die Daten selbst.
Bei nicht numerischen Daten können Sie außerdem Messwerte wie die Jaccard-Abstandsmetrik verwenden, bei der es sich um einen Index handelt, der die Anzahl der Features vergleicht, die zwei Datenpunkte gemeinsam haben. Um zum Beispiel eine Jaccard-Distanz zu illustrieren, denken Sie an die beiden folgenden Textstrings: Saint Louis de Ha-ha, Quebec und St-Louis de Ha! Ha!, QK.
Welche Eigenschaften haben diese Textstrings gemeinsam? Und welche Merkmale unterscheiden sich zwischen ihnen? Die Jaccard-Metrik generiert einen numerischen Indexwert, der die Ähnlichkeit zwischen Textzeichenfolgen quantifiziert.