Clustering-Algorithmen in Data Science - Dummies

Video: Clustering mit dem K-Means Algorithmus | Data Mining Algorithmen 2025

Sie verwenden Clustering-Algorithmen, um Ihre Datenmengen in Cluster von Datenpunkten zu unterteilen, die für ein vordefiniertes Attribut am ähnlichsten sind. Wenn Sie ein Dataset haben, das mehrere Attribute zu einem bestimmten Feature beschreibt und Ihre Datenpunkte entsprechend ihrer Attributähnlichkeiten gruppieren möchten, verwenden Sie Clustering-Algorithmen.

Ein einfaches Streudiagramm von Landeinkommens- und Bildungsdatensätzen ergibt das Diagramm, das Sie hier sehen.

Bei unbeaufsichtigtem Clustering beginnen Sie mit diesen Daten und teilen sie dann in Untergruppen auf. Diese Teilmengen werden Cluster genannt und bestehen aus Datenpunkten, die einander am ähnlichsten sind. Es scheint, dass es mindestens zwei Cluster gibt, wahrscheinlich drei - einen am unteren Ende mit niedrigem Einkommen und Bildung, und dann sehen die Hochbildungsländer aus, als könnten sie zwischen niedrigem und hohem Einkommen aufgeteilt werden.

Die folgende Abbildung zeigt das Ergebnis von eyeballing - eine visuelle Schätzung von - Clustern in diesem Datensatz.

Obwohl Sie visuelle Schätzungen des Clustering generieren können, können Sie wesentlich genauere Ergebnisse erzielen, wenn Sie mit viel größeren Datenmengen arbeiten, indem Sie Algorithmen zum Generieren von Clustern für Sie verwenden. Die visuelle Schätzung ist eine grobe Methode, die nur bei kleineren Datensätzen mit minimaler Komplexität nützlich ist. Algorithmen - Erstellen Sie exakte, wiederholbare Ergebnisse, und Sie können Algorithmen verwenden, um Clustering für mehrere Datenabmessungen in Ihrem Dataset zu generieren.

Clustering-Algorithmen sind eine Art von Ansatz im unbeaufsichtigten maschinellen Lernen - andere Ansätze beinhalten Markov-Methoden und Methoden zur Dimensionsreduktion. Clustering-Algorithmen sind in Situationen geeignet, in denen die folgenden Eigenschaften zutreffen:

Sie kennen und verstehen den Datensatz, den Sie analysieren.
Bevor Sie den Clustering-Algorithmus ausführen, haben Sie keine genaue Vorstellung von der Art der Subsets (Cluster). Häufig wissen Sie nicht einmal, wie viele Teilmengen es im Dataset gibt, bevor Sie den Algorithmus ausführen.
Die Teilmengen (Cluster) werden nur von dem einen Datensatz bestimmt, den Sie analysieren.
Ihr Ziel besteht darin, ein Modell zu bestimmen, das die Teilmengen in einem einzelnen Dataset und nur dieses Dataset beschreibt.

Wenn Sie weitere Daten hinzufügen, sollten Sie die Analyse von Grund auf neu starten, um vollständige und genaue Modellergebnisse zu erhalten.