Zuhause Persönliche Finanzen Verwendung von K-Means-Cluster-Algorithmen in der Predictive Analysis - Dummies

Verwendung von K-Means-Cluster-Algorithmen in der Predictive Analysis - Dummies

Video: Practical Machine Learning Tutorial with Python Intro p.1 2025

Video: Practical Machine Learning Tutorial with Python Intro p.1 2025
Anonim

K ist eine Eingabe in den Algorithmus für die prädiktive Analyse; Es steht für die Anzahl der Gruppierungen, die der Algorithmus aus einem Datensatz extrahieren muss, algebraisch ausgedrückt als k . Ein K-Means-Algorithmus teilt einen gegebenen Datensatz in k Cluster auf. Der Algorithmus führt die folgenden Operationen aus:

  1. Wählen Sie k zufällige Elemente aus dem Dataset aus und bezeichnen Sie sie als Cluster-Repräsentanten.

  2. Ordnen Sie jedes verbleibende Element im Datensatz dem nächsten Clusterrepräsentanten zu, indem Sie eine Euklidische Distanz verwenden, die durch eine Ähnlichkeitsfunktion berechnet wird.

  3. Berechnen Sie die Vertreter der neuen Cluster neu.

  4. Wiederholen Sie die Schritte 2 und 3, bis sich die Cluster nicht mehr ändern.

Ein Vertreter eines Clusters ist der mathematische Durchschnitt (Durchschnitt) aller Elemente, die zum selben Cluster gehören. Dieser Vertreter wird auch als Clusterschwerpunkt bezeichnet. Betrachten Sie zum Beispiel drei Elemente aus dem Fruchtdatensatz, wo

Typ 1 entspricht Bananen.

Typ 2 entspricht Äpfeln.

Farbe 2 entspricht Gelb.

Farbe 3 entspricht Grün.

Unter der Annahme, dass diese Elemente demselben Cluster zugewiesen sind, wird der Schwerpunkt dieser drei Elemente berechnet.

Element Element # 1 Typ Element # 2 Farbe Element # 3 Gewicht (Unzen)
1 1 2 5. 33 999 2 999 2 999 3 999 9. 33 999 39999 1 999 299992. 1
Hier sind die Berechnungen eines Clusters, der drei Elemente repräsentiert, die zum selben Cluster gehören. Der Clusterrepräsentant ist ein Vektor von drei Attributen. Seine Attribute sind der Durchschnitt der Attribute der Elemente in dem betreffenden Cluster. Element Element # 1 Typ
Element # 2 Farbe Element # 3 Gewicht (Unzen) 1 1
2

5. 33 999 2 999 2 999 3 999 9. 33 999 39999 1 999 299992. 1

Clusterrepräsentant (Schwerpunktvektor) (1 + 2 + 1) / 3 = 1. 33 (2 + 3 + 2) / 3 = 2. 33 (5. 33 + 9. 33 +32. 1) / 3 = 3
Der folgende Datensatz besteht aus sieben Kundenbewertungen von zwei Produkten, A und B. Die Rangfolge repräsentiert die Anzahl der Punkte (zwischen 0 und 10), die jeder Kunde einem Produkt gegeben hat - je mehr Punkte vergeben werden, desto höher wird das Produkt eingestuft. Unter Verwendung eines K-Means-Algorithmus und unter der Annahme, dass k gleich 2 ist, wird der Datensatz in zwei Gruppen aufgeteilt. Der Rest der Prozedur sieht so aus:
Wähle zwei zufällige Elemente aus dem Datensatz aus und beschrifte sie als Cluster-Repräsentanten. Das Folgende zeigt den anfänglichen Schritt des Auswählens zufälliger Schwerpunkte, von denen der K-Mittel-Clustering-Prozess beginnt.Die anfänglichen Schwerpunkte werden zufällig aus den Daten ausgewählt, die Sie analysieren möchten. In diesem Fall suchen Sie nach zwei Clustern, sodass zwei Datenelemente zufällig ausgewählt werden: Kunden 1 und 5. Zunächst erstellt der Clustering-Prozess zwei Cluster um diese beiden ersten (zufällig ausgewählten) Cluster-Repräsentanten. Dann werden die Clusterrepräsentanten neu berechnet. Die Berechnung basiert auf den Elementen in jedem Cluster. Kunden-ID
Kundenbewertungen zu Produkt A Kundenbewertungen zu Produkt B 1 2
2 2 3 4

3 < 6

8 4 7

  1. 10 5 10 14 6 9 10 7 999 7

    9

    Prüfen Sie jeden anderen Artikel (Kunden) und ordnen Sie ihn dem Cluster-Mitarbeiter zu, dem er am ähnlichsten ist.

    Verwenden Sie die Euklidische Entfernung , um zu berechnen, wie ähnlich ein Element einer Gruppe von Elementen ist:
    Ähnlichkeit von Element I mit Cluster X = sqrt {{{left ({{f_1} - {x_1 }} rechts)} ^ 2} + {{links ({{f_2} - {x_2}} rechts)} ^ 2} + cdots + {{links ({{f_n} - {x_n}} rechts)} ^ 2} } Die Werte {f_1},; {f_2},; Punkte,; {f_n} sind die numerischen Werte der Features, die das betreffende Objekt beschreiben. Die Werte {x_1},; {x_2},; Punkte,; {x_n} sind die Merkmale (Mittelwerte) des Clusterrepräsentanten (Schwerpunkt), wobei davon ausgegangen wird, dass jedes Element n
    Merkmale aufweist. Betrachten Sie z. B. das Element mit dem Namen Kunde 2 (3, 4): Die Bewertung des Kunden für Produkt A war 3 und die Bewertung für Produkt B war 4. Das repräsentative Merkmal des Clusters ist (2, 2). Die Ähnlichkeit von Kunde 2 zu Cluster 1 wird wie folgt berechnet: Ähnlichkeit von Element 2 zu Cluster 1 = sqrt {{{left ({3-2} right)} ^ 2} + {{left ({4 - 2 } right)} ^ 2}} = 2. 23
    So sieht der gleiche Prozess mit Cluster 2 aus: Ähnlichkeit von Item 2 zu Cluster 2 = sqrt {{{left ({3 - 10} right) } ^ 2} + {{left ({4 - 14} right)} ^ 2}} = 12. 20 Wenn Sie diese Ergebnisse vergleichen, weisen Sie Element 2 (dh Kunde 2) Cluster 1 zu, da die Zahlen sagen Element 2 ist Cluster 1 ähnlicher.
    Wenden Sie die gleiche Ähnlichkeitsanalyse auf jedes andere Element im Dataset an. Jedes Mal, wenn ein neues Mitglied einem Cluster beitritt, müssen Sie den Clusterrepräsentanten neu berechnen. Hier werden die Ergebnisse der ersten Iteration des K-Mean-Algorithmus dargestellt. Beachten Sie, dass
    k gleich 2 ist. Sie suchen also nach zwei Clustern, die eine Gruppe von Kunden in zwei sinnvolle Gruppen aufteilen. Jeder Kunde wird separat analysiert und auf der Basis der Ähnlichkeit des Kunden mit jedem der aktuellen Cluster-Vertreter einem der Cluster zugeordnet. Erneutes Iterieren des Datensatzes durch alle Elemente; Berechnen Sie die Ähnlichkeit zwischen jedem Element und seinem aktuellen Clusterrepräsentanten.
    Beachten Sie, dass Kunde 3 von Cluster 1 zu Cluster 2 verschoben wurde. Dies liegt daran, dass die Distanz von Kunde 3 zum Cluster, der für Cluster 2 repräsentativ ist, näher ist als für Cluster Cluster 1. Cluster Representative (Centroid Vector) < Cluster 1 Kunden-ID # 1 (2, 2)
    Cluster 2 Kunden-ID # 5 (10, 14) Iteration # 1
  2. Kundencluster 1

    Kundencluster 2 Zu ​​prüfender Kunde Kunden-IDs des Clusters 1

    Cluster-Vertreter

    Kunden-IDs des Clusters 1 Cluster-Vertreter 1

    (2, 2) > 5

    (10, 14)

    2

    1, 2

    (2.4, 3)

  3. 5

    (10, 14)

    3 1, 2, 3, (3, 6, 4, 6) 5

  4. (10, 14)

    4

    1, 2, 3 (3, 6, 4, 6)
    4, 5 (8, 4, 12)
    6 1, 2, 3 (3. 6, 4. 6)
    4, 5, 6 (8.6, 11. 4) 7
    1, 2, 3 > (3. 6, 4. 6) 4, 5, 6, 7 (8. 2, 10. 8) Hier ist eine zweite Iteration des K-Mittel-Algorithmus auf Kundendaten. Jeder Kunde wird erneut analysiert. Kunde 2 wird Cluster 1 zugewiesen, weil Kunde 2 dem Vertreter von Cluster 1 näher ist als Cluster 2. Dasselbe Szenario gilt für Kunde 4. Beachten Sie, dass ein Clusterrepräsentant jedes Mal neu berechnet wird, wenn ein neues Mitglied einem Cluster zugewiesen wird. Iteration # 2
    Kundencluster 1 Kundencluster 2 Zu ​​prüfender Kunde Kunden-IDs des Clusters 1
    Clusterrepräsentant Kunden-IDs des Clusters 2 > Clusterrepräsentant 1 1 (3. 6, 4. 6)
    5 (8.2, 10.8) 2 1, 2 < (5. 2, 3) 5
    (8, 2, 10, 8) 3 1, 2 (5, 2, 3) 5, 3 (7.8, 10. 2)
    4 1, 2 (5. 2, 3) 4, 5. 3 (7. 8, 10 2)
    6 1, 2 (5, 2, 3) 4, 5, 6, 3, (7, 8, 10, 2) 7 < 1, 2

(5. 2, 3)

Verwendung von K-Means-Cluster-Algorithmen in der Predictive Analysis - Dummies

Die Wahl des Herausgebers

Wie man die Socialcast Mobile App benutzt - dummies

Wie man die Socialcast Mobile App benutzt - dummies

Sogar die stoischste Anwendung wie Microsoft Excel hat ein begleitendes Smartphone-App, natürlich hat Socialcast auch eine. Wenn es so wäre, wäre es nicht wirklich eine Ausrede zu sagen, dass Socialcast nicht sehr sozial wäre, wenn du es nicht mit in die große Welt außerhalb deiner Zelle mitnehmen könntest. Die mobile App ...

Wie man das App Verzeichnis von Yammer benutzt - dummies

Wie man das App Verzeichnis von Yammer benutzt - dummies

Sie haben vielleicht gehört: "Es gibt eine App dafür. "Nun, das ist der Fall bei Yammer, der als einzige Ressource für die Vernetzung am Arbeitsplatz funktioniert. Aber Yammer bietet Ihnen auch eine Menge Apps, mit denen Sie Ihr Arbeitsleben noch einfacher gestalten können. Es gibt zwei Möglichkeiten, auf das App-Verzeichnis zuzugreifen: Option ...

So ​​verwenden Sie die Yammer-Analysetools - Dummies

So ​​verwenden Sie die Yammer-Analysetools - Dummies

Yammer rühmt sich damit als "führendes soziales Unternehmensnetzwerk für Unternehmen" um die Arbeit intelligenter und schneller zu erledigen. "Woher weißt du, ob das wahr ist? Ein guter Weg, um zu sehen, wie es für Sie funktioniert, ist die Analyse von Yammer. Wie greifen Sie auf diese großartigen Tools zu? Es ist einfach. Log ...

Die Wahl des Herausgebers

Die Evolution von Distributed Computing für Big Data - Dummies

Die Evolution von Distributed Computing für Big Data - Dummies

Hinter allen wichtigen Trends des letzten Jahrzehnts, einschließlich Serviceorientierung, Cloud Computing, Virtualisierung und Big Data, ist eine grundlegende Technologie namens Distributed Computing. Einfach gesagt, ohne die Verteilung von Datenverarbeitung wäre keiner dieser Fortschritte möglich. Distributed Computing ist eine Technik, mit der einzelne Computer über geografische Gebiete hinweg miteinander vernetzt werden können, so als ob ...

Drei Anbieter mit Data Mining-Produkten - Dummies

Drei Anbieter mit Data Mining-Produkten - Dummies

Es gibt mehrere Anbieter, die Data-Mining-Produkte verkaufen, die Sie vielleicht in Betracht ziehen möchten. Verwenden Sie mit Ihrem Data Warehouse. Hier sind drei, die eine Überlegung wert sind. Microsoft Microsoft hat das serverseitige Data Mining mit Microsoft SQL Server 2005 eingeführt. Obwohl es nicht so ausgereift und ausgeklügelt wie SAS und SPSS ist, hat Microsoft im Laufe der Zeit seine Fähigkeit bewiesen ...

Grundlagen der Big-Data-Integration - Dummies

Grundlagen der Big-Data-Integration - Dummies

Die fundamentalen Elemente der Big-Data-Plattform verwalten Daten auf neue Weise verglichen mit der traditionellen relationalen Datenbank. Dies liegt daran, dass Skalierbarkeit und hohe Leistung erforderlich sind, um sowohl strukturierte als auch unstrukturierte Daten zu verwalten. Komponenten des Big-Data-Ökosystems von Hadoop bis NoSQL DB, MongoDB, Cassandra, ...

Die Wahl des Herausgebers

So ​​stellen Sie eine Verbindung zu Spotify Mobile her - Dummies

So ​​stellen Sie eine Verbindung zu Spotify Mobile her - Dummies

Die meisten modernen Smartphones sind Wi-Fi-fähig. In ein lokales Netzwerk können Sie Spotify-Tracks mithilfe von Wi-Fi auf Ihr Telefon streamen. Sie können Spotify Mobile zu Hause und über Wi-Fi-Netzwerke in Hotels und Cafés problemlos nutzen - Sie müssen nur sicherstellen, dass Sie angemeldet und verbunden sind. ...

Wie Spotify funktioniert - Dummies

Wie Spotify funktioniert - Dummies

Wie Spotify funktioniert, kann Auswirkungen auf den Festplattenspeicher Ihres Computers haben. Internetverbindung. Spotify funktioniert anders als viele andere Online-Musikdienste, weil es auf mehrere Arten angewiesen ist, um Ihnen reibungslos Musik ohne Verzögerungen zu liefern. In Computing-Sprechen, das Maß der Verzögerung zwischen Anfordern eines Songs und Hören es ...

So ​​erreichen Sie Spotify Support - Dummies

So ​​erreichen Sie Spotify Support - Dummies

Es kann vorkommen, dass Sie eine kleine Hilfe beim Navigieren und Verwenden von Spotify benötigen von deinen Spotify Freunden. Sie können jederzeit Support @ spotify per E-Mail senden. com mit Ihrer Frage oder melden Sie sich bei Twitter an und senden Sie einen Tweet an @spotify. Stellen Sie sicher, dass Sie alle Informationen einschließen, die dem Support-Team helfen könnten, einschließlich Ihres Benutzernamens, damit sie ...

3, 4, 5, 6, 7 (7. 8, 10. 2)