Verwendung von K-Means-Cluster-Algorithmen in der Predictive Analysis - Dummies

K ist eine Eingabe in den Algorithmus für die prädiktive Analyse; Es steht für die Anzahl der Gruppierungen, die der Algorithmus aus einem Datensatz extrahieren muss, algebraisch ausgedrückt als k . Ein K-Means-Algorithmus teilt einen gegebenen Datensatz in k Cluster auf. Der Algorithmus führt die folgenden Operationen aus:

Wählen Sie k zufällige Elemente aus dem Dataset aus und bezeichnen Sie sie als Cluster-Repräsentanten.
Ordnen Sie jedes verbleibende Element im Datensatz dem nächsten Clusterrepräsentanten zu, indem Sie eine Euklidische Distanz verwenden, die durch eine Ähnlichkeitsfunktion berechnet wird.
Berechnen Sie die Vertreter der neuen Cluster neu.
Wiederholen Sie die Schritte 2 und 3, bis sich die Cluster nicht mehr ändern.

Ein Vertreter eines Clusters ist der mathematische Durchschnitt (Durchschnitt) aller Elemente, die zum selben Cluster gehören. Dieser Vertreter wird auch als Clusterschwerpunkt bezeichnet. Betrachten Sie zum Beispiel drei Elemente aus dem Fruchtdatensatz, wo

Typ 1 entspricht Bananen.

Typ 2 entspricht Äpfeln.

Farbe 2 entspricht Gelb.

Farbe 3 entspricht Grün.

Unter der Annahme, dass diese Elemente demselben Cluster zugewiesen sind, wird der Schwerpunkt dieser drei Elemente berechnet.

Element	Element # 1 Typ	Element # 2 Farbe	Element # 3 Gewicht (Unzen)
1	1	2	5. 33 999 2 999 2 999 3 999 9. 33 999 39999 1 999 299992. 1
	Hier sind die Berechnungen eines Clusters, der drei Elemente repräsentiert, die zum selben Cluster gehören. Der Clusterrepräsentant ist ein Vektor von drei Attributen. Seine Attribute sind der Durchschnitt der Attribute der Elemente in dem betreffenden Cluster.	Element	Element # 1 Typ
Element # 2 Farbe	Element # 3 Gewicht (Unzen)	1	1

5. 33 999 2 999 2 999 3 999 9. 33 999 39999 1 999 299992. 1

Clusterrepräsentant (Schwerpunktvektor)	(1 + 2 + 1) / 3 = 1. 33	(2 + 3 + 2) / 3 = 2. 33	(5. 33 + 9. 33 +32. 1) / 3 = 3
Der folgende Datensatz besteht aus sieben Kundenbewertungen von zwei Produkten, A und B. Die Rangfolge repräsentiert die Anzahl der Punkte (zwischen 0 und 10), die jeder Kunde einem Produkt gegeben hat - je mehr Punkte vergeben werden, desto höher wird das Produkt eingestuft.	Unter Verwendung eines K-Means-Algorithmus und unter der Annahme, dass	k	gleich 2 ist, wird der Datensatz in zwei Gruppen aufgeteilt. Der Rest der Prozedur sieht so aus:
Wähle zwei zufällige Elemente aus dem Datensatz aus und beschrifte sie als Cluster-Repräsentanten.	Das Folgende zeigt den anfänglichen Schritt des Auswählens zufälliger Schwerpunkte, von denen der K-Mittel-Clustering-Prozess beginnt.Die anfänglichen Schwerpunkte werden zufällig aus den Daten ausgewählt, die Sie analysieren möchten. In diesem Fall suchen Sie nach zwei Clustern, sodass zwei Datenelemente zufällig ausgewählt werden: Kunden 1 und 5.	Zunächst erstellt der Clustering-Prozess zwei Cluster um diese beiden ersten (zufällig ausgewählten) Cluster-Repräsentanten. Dann werden die Clusterrepräsentanten neu berechnet. Die Berechnung basiert auf den Elementen in jedem Cluster.	Kunden-ID
Kundenbewertungen zu Produkt A	Kundenbewertungen zu Produkt B	1	2
2	2	3	4

3 < 6

8 4 7

10 5 10 14 6 9 10 7 999 7

Prüfen Sie jeden anderen Artikel (Kunden) und ordnen Sie ihn dem Cluster-Mitarbeiter zu, dem er am ähnlichsten ist.

Verwenden Sie die	Euklidische Entfernung	, um zu berechnen, wie ähnlich ein Element einer Gruppe von Elementen ist:
Ähnlichkeit von Element I mit Cluster X = sqrt {{{left ({{f_1} - {x_1 }} rechts)} ^ 2} + {{links ({{f_2} - {x_2}} rechts)} ^ 2} + cdots + {{links ({{f_n} - {x_n}} rechts)} ^ 2} }	Die Werte {f_1},; {f_2},; Punkte,; {f_n} sind die numerischen Werte der Features, die das betreffende Objekt beschreiben. Die Werte {x_1},; {x_2},; Punkte,; {x_n} sind die Merkmale (Mittelwerte) des Clusterrepräsentanten (Schwerpunkt), wobei davon ausgegangen wird, dass jedes Element	n
Merkmale aufweist.	Betrachten Sie z. B. das Element mit dem Namen Kunde 2 (3, 4): Die Bewertung des Kunden für Produkt A war 3 und die Bewertung für Produkt B war 4. Das repräsentative Merkmal des Clusters ist (2, 2). Die Ähnlichkeit von Kunde 2 zu Cluster 1 wird wie folgt berechnet:	Ähnlichkeit von Element 2 zu Cluster 1 = sqrt {{{left ({3-2} right)} ^ 2} + {{left ({4 - 2 } right)} ^ 2}} = 2. 23
So sieht der gleiche Prozess mit Cluster 2 aus:	Ähnlichkeit von Item 2 zu Cluster 2 = sqrt {{{left ({3 - 10} right) } ^ 2} + {{left ({4 - 14} right)} ^ 2}} = 12. 20	Wenn Sie diese Ergebnisse vergleichen, weisen Sie Element 2 (dh Kunde 2) Cluster 1 zu, da die Zahlen sagen Element 2 ist Cluster 1 ähnlicher.
Wenden Sie die gleiche Ähnlichkeitsanalyse auf jedes andere Element im Dataset an.	Jedes Mal, wenn ein neues Mitglied einem Cluster beitritt, müssen Sie den Clusterrepräsentanten neu berechnen.	Hier werden die Ergebnisse der ersten Iteration des K-Mean-Algorithmus dargestellt. Beachten Sie, dass
k	gleich 2 ist. Sie suchen also nach zwei Clustern, die eine Gruppe von Kunden in zwei sinnvolle Gruppen aufteilen. Jeder Kunde wird separat analysiert und auf der Basis der Ähnlichkeit des Kunden mit jedem der aktuellen Cluster-Vertreter einem der Cluster zugeordnet.	Erneutes Iterieren des Datensatzes durch alle Elemente; Berechnen Sie die Ähnlichkeit zwischen jedem Element und seinem aktuellen Clusterrepräsentanten.
Beachten Sie, dass Kunde 3 von Cluster 1 zu Cluster 2 verschoben wurde. Dies liegt daran, dass die Distanz von Kunde 3 zum Cluster, der für Cluster 2 repräsentativ ist, näher ist als für Cluster Cluster 1.	Cluster Representative (Centroid Vector) < Cluster 1	Kunden-ID # 1 (2, 2)
Cluster 2	Kunden-ID # 5 (10, 14)	Iteration # 1

Kundencluster 1

Kundencluster 2 Zu prüfender Kunde Kunden-IDs des Clusters 1

Cluster-Vertreter

Kunden-IDs des Clusters 1 Cluster-Vertreter 1

(2, 2) > 5

(10, 14)

2

1, 2

(2.4, 3)
5

(10, 14)

3 1, 2, 3, (3, 6, 4, 6) 5

(10, 14)

1, 2, 3 (3, 6, 4, 6)
4, 5	(8, 4, 12)
6 1, 2, 3	(3. 6, 4. 6)

4, 5, 6	(8.6, 11. 4)	7
1, 2, 3 > (3. 6, 4. 6)	4, 5, 6, 7	(8. 2, 10. 8)	Hier ist eine zweite Iteration des K-Mittel-Algorithmus auf Kundendaten. Jeder Kunde wird erneut analysiert. Kunde 2 wird Cluster 1 zugewiesen, weil Kunde 2 dem Vertreter von Cluster 1 näher ist als Cluster 2. Dasselbe Szenario gilt für Kunde 4. Beachten Sie, dass ein Clusterrepräsentant jedes Mal neu berechnet wird, wenn ein neues Mitglied einem Cluster zugewiesen wird.	Iteration # 2
Kundencluster 1	Kundencluster 2	Zu prüfender Kunde	Kunden-IDs des Clusters 1
Clusterrepräsentant	Kunden-IDs des Clusters 2 > Clusterrepräsentant	1	1	(3. 6, 4. 6)
5	(8.2, 10.8)	2	1, 2 < (5. 2, 3)	5
(8, 2, 10, 8)	3 1, 2	(5, 2, 3)	5, 3	(7.8, 10. 2)
4	1, 2	(5. 2, 3)	4, 5. 3	(7. 8, 10 2)
6	1, 2	(5, 2, 3)	4, 5, 6, 3, (7, 8, 10, 2)	7 < 1, 2