Zuhause Persönliche Finanzen Verwendung von K-Means-Cluster-Algorithmen in der Predictive Analysis - Dummies

Verwendung von K-Means-Cluster-Algorithmen in der Predictive Analysis - Dummies

Video: Practical Machine Learning Tutorial with Python Intro p.1 2024

Video: Practical Machine Learning Tutorial with Python Intro p.1 2024
Anonim

K ist eine Eingabe in den Algorithmus für die prädiktive Analyse; Es steht für die Anzahl der Gruppierungen, die der Algorithmus aus einem Datensatz extrahieren muss, algebraisch ausgedrückt als k . Ein K-Means-Algorithmus teilt einen gegebenen Datensatz in k Cluster auf. Der Algorithmus führt die folgenden Operationen aus:

  1. Wählen Sie k zufällige Elemente aus dem Dataset aus und bezeichnen Sie sie als Cluster-Repräsentanten.

  2. Ordnen Sie jedes verbleibende Element im Datensatz dem nächsten Clusterrepräsentanten zu, indem Sie eine Euklidische Distanz verwenden, die durch eine Ähnlichkeitsfunktion berechnet wird.

  3. Berechnen Sie die Vertreter der neuen Cluster neu.

  4. Wiederholen Sie die Schritte 2 und 3, bis sich die Cluster nicht mehr ändern.

Ein Vertreter eines Clusters ist der mathematische Durchschnitt (Durchschnitt) aller Elemente, die zum selben Cluster gehören. Dieser Vertreter wird auch als Clusterschwerpunkt bezeichnet. Betrachten Sie zum Beispiel drei Elemente aus dem Fruchtdatensatz, wo

Typ 1 entspricht Bananen.

Typ 2 entspricht Äpfeln.

Farbe 2 entspricht Gelb.

Farbe 3 entspricht Grün.

Unter der Annahme, dass diese Elemente demselben Cluster zugewiesen sind, wird der Schwerpunkt dieser drei Elemente berechnet.

Element Element # 1 Typ Element # 2 Farbe Element # 3 Gewicht (Unzen)
1 1 2 5. 33 999 2 999 2 999 3 999 9. 33 999 39999 1 999 299992. 1
Hier sind die Berechnungen eines Clusters, der drei Elemente repräsentiert, die zum selben Cluster gehören. Der Clusterrepräsentant ist ein Vektor von drei Attributen. Seine Attribute sind der Durchschnitt der Attribute der Elemente in dem betreffenden Cluster. Element Element # 1 Typ
Element # 2 Farbe Element # 3 Gewicht (Unzen) 1 1
2

5. 33 999 2 999 2 999 3 999 9. 33 999 39999 1 999 299992. 1

Clusterrepräsentant (Schwerpunktvektor) (1 + 2 + 1) / 3 = 1. 33 (2 + 3 + 2) / 3 = 2. 33 (5. 33 + 9. 33 +32. 1) / 3 = 3
Der folgende Datensatz besteht aus sieben Kundenbewertungen von zwei Produkten, A und B. Die Rangfolge repräsentiert die Anzahl der Punkte (zwischen 0 und 10), die jeder Kunde einem Produkt gegeben hat - je mehr Punkte vergeben werden, desto höher wird das Produkt eingestuft. Unter Verwendung eines K-Means-Algorithmus und unter der Annahme, dass k gleich 2 ist, wird der Datensatz in zwei Gruppen aufgeteilt. Der Rest der Prozedur sieht so aus:
Wähle zwei zufällige Elemente aus dem Datensatz aus und beschrifte sie als Cluster-Repräsentanten. Das Folgende zeigt den anfänglichen Schritt des Auswählens zufälliger Schwerpunkte, von denen der K-Mittel-Clustering-Prozess beginnt.Die anfänglichen Schwerpunkte werden zufällig aus den Daten ausgewählt, die Sie analysieren möchten. In diesem Fall suchen Sie nach zwei Clustern, sodass zwei Datenelemente zufällig ausgewählt werden: Kunden 1 und 5. Zunächst erstellt der Clustering-Prozess zwei Cluster um diese beiden ersten (zufällig ausgewählten) Cluster-Repräsentanten. Dann werden die Clusterrepräsentanten neu berechnet. Die Berechnung basiert auf den Elementen in jedem Cluster. Kunden-ID
Kundenbewertungen zu Produkt A Kundenbewertungen zu Produkt B 1 2
2 2 3 4

3 < 6

8 4 7

  1. 10 5 10 14 6 9 10 7 999 7

    9

    Prüfen Sie jeden anderen Artikel (Kunden) und ordnen Sie ihn dem Cluster-Mitarbeiter zu, dem er am ähnlichsten ist.

    Verwenden Sie die Euklidische Entfernung , um zu berechnen, wie ähnlich ein Element einer Gruppe von Elementen ist:
    Ähnlichkeit von Element I mit Cluster X = sqrt {{{left ({{f_1} - {x_1 }} rechts)} ^ 2} + {{links ({{f_2} - {x_2}} rechts)} ^ 2} + cdots + {{links ({{f_n} - {x_n}} rechts)} ^ 2} } Die Werte {f_1},; {f_2},; Punkte,; {f_n} sind die numerischen Werte der Features, die das betreffende Objekt beschreiben. Die Werte {x_1},; {x_2},; Punkte,; {x_n} sind die Merkmale (Mittelwerte) des Clusterrepräsentanten (Schwerpunkt), wobei davon ausgegangen wird, dass jedes Element n
    Merkmale aufweist. Betrachten Sie z. B. das Element mit dem Namen Kunde 2 (3, 4): Die Bewertung des Kunden für Produkt A war 3 und die Bewertung für Produkt B war 4. Das repräsentative Merkmal des Clusters ist (2, 2). Die Ähnlichkeit von Kunde 2 zu Cluster 1 wird wie folgt berechnet: Ähnlichkeit von Element 2 zu Cluster 1 = sqrt {{{left ({3-2} right)} ^ 2} + {{left ({4 - 2 } right)} ^ 2}} = 2. 23
    So sieht der gleiche Prozess mit Cluster 2 aus: Ähnlichkeit von Item 2 zu Cluster 2 = sqrt {{{left ({3 - 10} right) } ^ 2} + {{left ({4 - 14} right)} ^ 2}} = 12. 20 Wenn Sie diese Ergebnisse vergleichen, weisen Sie Element 2 (dh Kunde 2) Cluster 1 zu, da die Zahlen sagen Element 2 ist Cluster 1 ähnlicher.
    Wenden Sie die gleiche Ähnlichkeitsanalyse auf jedes andere Element im Dataset an. Jedes Mal, wenn ein neues Mitglied einem Cluster beitritt, müssen Sie den Clusterrepräsentanten neu berechnen. Hier werden die Ergebnisse der ersten Iteration des K-Mean-Algorithmus dargestellt. Beachten Sie, dass
    k gleich 2 ist. Sie suchen also nach zwei Clustern, die eine Gruppe von Kunden in zwei sinnvolle Gruppen aufteilen. Jeder Kunde wird separat analysiert und auf der Basis der Ähnlichkeit des Kunden mit jedem der aktuellen Cluster-Vertreter einem der Cluster zugeordnet. Erneutes Iterieren des Datensatzes durch alle Elemente; Berechnen Sie die Ähnlichkeit zwischen jedem Element und seinem aktuellen Clusterrepräsentanten.
    Beachten Sie, dass Kunde 3 von Cluster 1 zu Cluster 2 verschoben wurde. Dies liegt daran, dass die Distanz von Kunde 3 zum Cluster, der für Cluster 2 repräsentativ ist, näher ist als für Cluster Cluster 1. Cluster Representative (Centroid Vector) < Cluster 1 Kunden-ID # 1 (2, 2)
    Cluster 2 Kunden-ID # 5 (10, 14) Iteration # 1
  2. Kundencluster 1

    Kundencluster 2 Zu ​​prüfender Kunde Kunden-IDs des Clusters 1

    Cluster-Vertreter

    Kunden-IDs des Clusters 1 Cluster-Vertreter 1

    (2, 2) > 5

    (10, 14)

    2

    1, 2

    (2.4, 3)

  3. 5

    (10, 14)

    3 1, 2, 3, (3, 6, 4, 6) 5

  4. (10, 14)

    4

    1, 2, 3 (3, 6, 4, 6)
    4, 5 (8, 4, 12)
    6 1, 2, 3 (3. 6, 4. 6)
    4, 5, 6 (8.6, 11. 4) 7
    1, 2, 3 > (3. 6, 4. 6) 4, 5, 6, 7 (8. 2, 10. 8) Hier ist eine zweite Iteration des K-Mittel-Algorithmus auf Kundendaten. Jeder Kunde wird erneut analysiert. Kunde 2 wird Cluster 1 zugewiesen, weil Kunde 2 dem Vertreter von Cluster 1 näher ist als Cluster 2. Dasselbe Szenario gilt für Kunde 4. Beachten Sie, dass ein Clusterrepräsentant jedes Mal neu berechnet wird, wenn ein neues Mitglied einem Cluster zugewiesen wird. Iteration # 2
    Kundencluster 1 Kundencluster 2 Zu ​​prüfender Kunde Kunden-IDs des Clusters 1
    Clusterrepräsentant Kunden-IDs des Clusters 2 > Clusterrepräsentant 1 1 (3. 6, 4. 6)
    5 (8.2, 10.8) 2 1, 2 < (5. 2, 3) 5
    (8, 2, 10, 8) 3 1, 2 (5, 2, 3) 5, 3 (7.8, 10. 2)
    4 1, 2 (5. 2, 3) 4, 5. 3 (7. 8, 10 2)
    6 1, 2 (5, 2, 3) 4, 5, 6, 3, (7, 8, 10, 2) 7 < 1, 2

(5. 2, 3)

Verwendung von K-Means-Cluster-Algorithmen in der Predictive Analysis - Dummies

Die Wahl des Herausgebers

Netzwerkgrundlagen: IPv6-Adresse Vereinfachte Notation - Dummies

Netzwerkgrundlagen: IPv6-Adresse Vereinfachte Notation - Dummies

Bei der Arbeit mit IPv6-Adressen kann es viel Zeit in Anspruch nehmen. schreibe deine Adressen - immerhin sind sie 128 Bit lang. Um das Leben einfacher zu machen, gibt es einige Regeln, die Sie verwenden können, um diese Schreibweise zu verdichten: Führende Nullen in der Adresse sind optional. Für einen Adressblock wäre also 0A45 gleich A45, ...

Netzwerkgrundlagen: IP-Netzwerkklassen - Dummies

Netzwerkgrundlagen: IP-Netzwerkklassen - Dummies

Netzwerkadressierungsarchitektur unterteilt den Adressraum für Internet Protocol Version 4 (IPv4 ) in fünf Adressklassen. Jede Klasse, die in den ersten vier Bits der Adresse codiert ist, definiert entweder eine andere Netzwerkgröße, d.h. e. Anzahl der Hosts für Unicast-Adressen (Klassen A, B, C) oder Multicast-Netzwerk (Klasse D). Die fünfte Klasse (E) address ...

Netzwerkgrundlagen: Netzwerkport Übersicht - Dummys

Netzwerkgrundlagen: Netzwerkport Übersicht - Dummys

In TCP / IP- und UDP-Netzwerken ist ein Port ein Endpunkt eine logische Verbindung. Die Portnummer gibt an, um welchen Port es sich handelt. Port 80 wird beispielsweise für HTTP-Datenverkehr verwendet. Wenn Sie einen Befehl wie netstat -n unter Microsoft Windows oder Linux verwenden, sehen Sie eine Auflistung der lokalen Adressen ...

Die Wahl des Herausgebers

Excel-Dashboards: Wie Sie Ihr erstes Makro aufzeichnen - Dummies

Excel-Dashboards: Wie Sie Ihr erstes Makro aufzeichnen - Dummies

Wenn Sie ein Anfänger auf dem Dashboard sind Automatisierung in Excel ist es unwahrscheinlich, dass Sie den VBA-Code (Visual Basic für Applikationen) von Hand schreiben können, um Makros zu erstellen. Ohne vollständige Kenntnis des Objektmodells und der Syntax von Excel wäre das Schreiben des benötigten Codes für die meisten Anfänger unmöglich. Hier können Sie ein Makro aufzeichnen ...

Excel-Formelberechnungsmodi - Dummys

Excel-Formelberechnungsmodi - Dummys

Standardmäßig ist Excel so eingestellt, dass es automatisch neu berechnet wird. Wenn Sie eine der Zellen ändern, auf die in einer bestimmten Formel verwiesen wird, berechnet Excel diese Formel automatisch neu, sodass ein korrektes Ergebnis basierend auf den Änderungen in den Zellbezügen zurückgegeben wird. Wenn die Formel, die neu berechnet wird, auch als Zellenreferenz in anderen verwendet wird ...

Excel Formelfehler - Dummies

Excel Formelfehler - Dummies

Es ist nicht immer glatt, wenn Sie mit Excel-Formeln arbeiten. Manchmal gibt eine Formel einen Fehlerwert anstelle des erwarteten Werts zurück. Excel hilft Ihnen, das Problem zu identifizieren, indem Sie einen von sieben Fehlerwerten zurückgeben: # DIV / 0! , # N / A, #NAME? , #NULL! , #NUM! , #REF! und #WERT! , erklärt in der folgenden Liste: # DIV / 0! : ...

Die Wahl des Herausgebers

Teilen, Weiterverbreiten und Kommentieren von Google+ Posts - Dummies

Teilen, Weiterverbreiten und Kommentieren von Google+ Posts - Dummies

, Wenn Sie mit der Verwendung und Veröffentlichung beginnen Bei Google+ möchten Sie gelegentlich Links und Bilder teilen, die Beiträge anderer freigeben, ihre Beiträge kommentieren und andere in Ihren eigenen Google+ Beiträgen erwähnen. Vielleicht fragen Sie sich auch, wie Sie andere dazu bringen, Ihre eigenen Beiträge öfter zu kommentieren. Teilen von Links und Bildern in Google+ So geben Sie ein ...

Teilen Ihrer Google+ Posts mit bestimmten Personen - Dummies

Teilen Ihrer Google+ Posts mit bestimmten Personen - Dummies

Beiträge auf Google+ sind ganz einfach und können posten Text, Links, Fotos, Videos und sogar Ihren aktuellen Standort. Der schwierigste Teil des Beitrags auf Google+ besteht darin, auszuwählen, wen Sie Ihren Beitrag sehen möchten. Google+ verwendet Ihre Kreise, um festzulegen, wer Ihre Beiträge sehen kann. Kreise sind etwas einfacher als Listen, weil ...

Taggen von Personen in Google+ Fotos - Dummies

Taggen von Personen in Google+ Fotos - Dummies

Sie können Personen in Ihren Kreisen auf jedem Foto auf Google+ markieren. Wenn Sie eine Person in einem Foto taggen, wird diese Person über ihre Google+ Benachrichtigungen benachrichtigt. Sie können dann das Tag entfernen oder genehmigen, und das Foto wird mit dem Tag des Namens dieser Person darin angezeigt. Um jemanden zu markieren, ...

3, 4, 5, 6, 7 (7. 8, 10. 2)