Zuhause Persönliche Finanzen Grundlagen von Data Clusters in der Predictive Analysis - Dummies

Grundlagen von Data Clusters in der Predictive Analysis - Dummies

Video: Klassifikation Was ist das? Datamining 2024

Video: Klassifikation Was ist das? Datamining 2024
Anonim

A Datensatz < (oder Datensammlung) ist eine Reihe von Elementen in der Vorhersageanalyse. Zum Beispiel ist ein Satz von Dokumenten ein Datensatz, in dem die Datenelemente Dokumente sind. Eine Reihe von Informationen zu sozialen Netzwerkbenutzern (Name, Alter, Freunde, Fotos usw.) ist ein Datensatz, in dem die Datenelemente Profile von Nutzern sozialer Netzwerke sind. Datenclustering

ist die Aufgabe, einen Datensatz in Teilmengen ähnlicher Elemente aufzuteilen. Elemente können auch als Instanzen, Beobachtungen, Entitäten oder Datenobjekte bezeichnet werden. In den meisten Fällen wird ein Datensatz im Tabellenformat dargestellt - eine Datenmatrix . Eine Datenmatrix ist eine Tabelle mit Zahlen, Dokumenten oder Ausdrücken, die wie folgt in Zeilen und Spalten dargestellt wird:

Jede Zeile entspricht einem bestimmten Element im Datensatz.
  • Zeilen werden manchmal als

    Objekte, Objekte, Instanzen oder Beobachtungen bezeichnet. Jede Spalte repräsentiert ein bestimmtes Merkmal eines Artikels.

  • Spalten werden als

    -Features oder -attribute bezeichnet. Das Anwenden von Datenclustering auf ein Dataset generiert Gruppen ähnlicher Datenelemente. Diese Gruppen werden

Cluster genannt - Sammlungen ähnlicher Datenelemente.

Ähnliche

Artikel haben eine starke, messbare Beziehung zwischen ihnen - frisches Gemüse zum Beispiel sind einander ähnlicher als Tiefkühlkost - und Clustering-Techniken verwenden diese Beziehung zur Gruppe die Gegenstände. Die Stärke einer Beziehung zwischen zwei oder mehr Elementen kann als

Ähnlichkeitsmaß quantifiziert werden: Eine mathematische Funktion berechnet die Korrelation zwischen zwei Datenelementen. Die Ergebnisse dieser Berechnung, die Ähnlichkeitswerte genannt werden, vergleichen im Wesentlichen ein bestimmtes Datenelement mit allen anderen Elementen in dem Datensatz. Diese anderen Elemente sind im Vergleich zu diesem bestimmten Element entweder ähnlicher oder weniger ähnlich.

Berechnete Ähnlichkeiten spielen eine wichtige Rolle bei der Zuweisung von Elementen zu Gruppen (

Cluster ). Jede Gruppe hat einen Gegenstand, der sie am besten repräsentiert; Dieser Punkt wird als Clusterrepräsentant bezeichnet. Betrachten Sie einen Datensatz, der aus mehreren Arten von Früchten in einem Korb besteht. Der Korb hat Früchte verschiedener Art wie Äpfel, Bananen, Zitronen und Birnen. In diesem Fall sind Früchte die Datenelemente. Der Datenclustering-Prozess extrahiert Gruppen ähnlicher Früchte aus diesem Datensatz (Korb mit verschiedenen Früchten).

Der erste Schritt in einem Datenclustering-Prozess besteht darin, diesen Datensatz in eine Datenmatrix zu übersetzen: Eine Möglichkeit, dieses Dataset zu modellieren, besteht darin, dass die Zeilen die Elemente im Dataset (Früchte) darstellen. und die Spalten stellen Merkmale oder Merkmale dar, die die Elemente beschreiben.

Zum Beispiel kann ein Fruchtmerkmal der Fruchttyp (wie eine Banane oder ein Apfel), Gewicht, Farbe oder Preis sein. In diesem Beispieldatensatz haben die Elemente drei Merkmale: Fruchttyp, Farbe und Gewicht.

In den meisten Fällen können Sie durch das Anwenden einer Datenclustering-Technik auf das Fruchtdatensatz wie oben beschrieben

Gruppen (Cluster) ähnlicher Objekte abrufen.

  • Sie können sagen, dass Ihre Frucht aus N Gruppen besteht. Wenn Sie danach eine zufällige Frucht auswählen, können Sie eine Aussage darüber machen, dass sie Teil einer der N Gruppen ist. Ruft Clusterrepräsentanten jeder Gruppe ab.

  • In diesem Beispiel würde ein Cluster-Vertreter einen Obsttyp aus dem Korb auswählen und beiseite legen. Die Eigenschaften dieser Frucht sind so, dass diese Frucht am besten den Cluster repräsentiert, zu dem sie gehört. Wenn Sie mit dem Clustering fertig sind, wird Ihr Datensatz organisiert und in natürliche Gruppierungen unterteilt.

Das Datenclustering enthüllt die Struktur in den Daten, indem natürliche Gruppierungen aus einem Datensatz extrahiert werden. Das Auffinden von Clustern ist daher ein wesentlicher Schritt, um Ideen und Hypothesen über die Struktur Ihrer Daten zu formulieren und Erkenntnisse zum besseren Verständnis zu gewinnen.

Datenclustering kann auch eine Möglichkeit sein, Daten zu modellieren: Es stellt einen größeren Datenbestand durch Cluster oder Clusterrepräsentanten dar.

Darüber hinaus kann Ihre Analyse einfach darauf abzielen, die Daten in Gruppen mit ähnlichen Elementen aufzuteilen - wie bei der

Marktsegmentierung werden Zielmarktdaten in Gruppen wie aufgeteilt. Verbraucher mit denselben Interessen (wie mediterrane Küche)

  • Verbraucher, die gemeinsame Bedürfnisse haben (zum Beispiel solche mit spezifischen Nahrungsmittelallergien)

  • Die Identifizierung von Clustern ähnlicher Kunden kann Ihnen helfen, eine Marketingstrategie zu entwickeln, die den Bedürfnissen bestimmter Cluster entspricht.

Außerdem kann Datenclustering Ihnen dabei helfen, die Natur neuer Datenelemente zu identifizieren, zu lernen oder vorherzusagen - insbesondere, wie neue Daten mit Vorhersagen verknüpft werden können. In der

Mustererkennung kann beispielsweise die Analyse von Mustern in den Daten (z. B. Kauf von Mustern in bestimmten Regionen oder Altersgruppen) Ihnen bei der Entwicklung von Vorhersageanalysen helfen. In diesem Fall können Sie die Art zukünftiger Datenelemente vorhersagen. passt gut zu etablierten Mustern. Das Obstkorbbeispiel verwendet Datenclustering, um zwischen verschiedenen Datenelementen zu unterscheiden. Angenommen, Ihr Unternehmen baut eigene Obstkörbe zusammen und eine neue, unbekannte Frucht wird auf den Markt gebracht. Sie möchten lernen oder vorhersagen, zu welchem ​​Cluster der neue Artikel gehört, wenn Sie ihn dem Obstkorb hinzufügen.

Da Sie das Daten-Clustering bereits auf das Frucht-Dataset angewendet haben, haben Sie vier Cluster - was es einfacher macht vorherzusagen, welcher Cluster (bestimmte Fruchtart) für den neuen Gegenstand geeignet ist. Alles, was Sie tun müssen, ist, die unbekannte Frucht mit den Vertretern der anderen vier Cluster zu vergleichen und herauszufinden, welche Gruppe die beste Übereinstimmung ist.

Obwohl dieser Vorgang für eine Person, die mit einem kleinen Datensatz arbeitet, offensichtlich erscheint, ist sie in einem größeren Maßstab nicht so offensichtlich, wenn Sie Millionen von Elementen gruppieren müssen, ohne sie einzeln zu untersuchen.Die Komplexität wird exponentiell, wenn der Datensatz groß, vielfältig und relativ inkohärent ist - weshalb Clustering-Algorithmen existieren: Computer tun diese Art von Arbeit am besten.

Grundlagen von Data Clusters in der Predictive Analysis - Dummies

Die Wahl des Herausgebers

Netzwerkgrundlagen: IPv6-Adresse Vereinfachte Notation - Dummies

Netzwerkgrundlagen: IPv6-Adresse Vereinfachte Notation - Dummies

Bei der Arbeit mit IPv6-Adressen kann es viel Zeit in Anspruch nehmen. schreibe deine Adressen - immerhin sind sie 128 Bit lang. Um das Leben einfacher zu machen, gibt es einige Regeln, die Sie verwenden können, um diese Schreibweise zu verdichten: Führende Nullen in der Adresse sind optional. Für einen Adressblock wäre also 0A45 gleich A45, ...

Netzwerkgrundlagen: IP-Netzwerkklassen - Dummies

Netzwerkgrundlagen: IP-Netzwerkklassen - Dummies

Netzwerkadressierungsarchitektur unterteilt den Adressraum für Internet Protocol Version 4 (IPv4 ) in fünf Adressklassen. Jede Klasse, die in den ersten vier Bits der Adresse codiert ist, definiert entweder eine andere Netzwerkgröße, d.h. e. Anzahl der Hosts für Unicast-Adressen (Klassen A, B, C) oder Multicast-Netzwerk (Klasse D). Die fünfte Klasse (E) address ...

Netzwerkgrundlagen: Netzwerkport Übersicht - Dummys

Netzwerkgrundlagen: Netzwerkport Übersicht - Dummys

In TCP / IP- und UDP-Netzwerken ist ein Port ein Endpunkt eine logische Verbindung. Die Portnummer gibt an, um welchen Port es sich handelt. Port 80 wird beispielsweise für HTTP-Datenverkehr verwendet. Wenn Sie einen Befehl wie netstat -n unter Microsoft Windows oder Linux verwenden, sehen Sie eine Auflistung der lokalen Adressen ...

Die Wahl des Herausgebers

Excel-Dashboards: Wie Sie Ihr erstes Makro aufzeichnen - Dummies

Excel-Dashboards: Wie Sie Ihr erstes Makro aufzeichnen - Dummies

Wenn Sie ein Anfänger auf dem Dashboard sind Automatisierung in Excel ist es unwahrscheinlich, dass Sie den VBA-Code (Visual Basic für Applikationen) von Hand schreiben können, um Makros zu erstellen. Ohne vollständige Kenntnis des Objektmodells und der Syntax von Excel wäre das Schreiben des benötigten Codes für die meisten Anfänger unmöglich. Hier können Sie ein Makro aufzeichnen ...

Excel-Formelberechnungsmodi - Dummys

Excel-Formelberechnungsmodi - Dummys

Standardmäßig ist Excel so eingestellt, dass es automatisch neu berechnet wird. Wenn Sie eine der Zellen ändern, auf die in einer bestimmten Formel verwiesen wird, berechnet Excel diese Formel automatisch neu, sodass ein korrektes Ergebnis basierend auf den Änderungen in den Zellbezügen zurückgegeben wird. Wenn die Formel, die neu berechnet wird, auch als Zellenreferenz in anderen verwendet wird ...

Excel Formelfehler - Dummies

Excel Formelfehler - Dummies

Es ist nicht immer glatt, wenn Sie mit Excel-Formeln arbeiten. Manchmal gibt eine Formel einen Fehlerwert anstelle des erwarteten Werts zurück. Excel hilft Ihnen, das Problem zu identifizieren, indem Sie einen von sieben Fehlerwerten zurückgeben: # DIV / 0! , # N / A, #NAME? , #NULL! , #NUM! , #REF! und #WERT! , erklärt in der folgenden Liste: # DIV / 0! : ...

Die Wahl des Herausgebers

Teilen, Weiterverbreiten und Kommentieren von Google+ Posts - Dummies

Teilen, Weiterverbreiten und Kommentieren von Google+ Posts - Dummies

, Wenn Sie mit der Verwendung und Veröffentlichung beginnen Bei Google+ möchten Sie gelegentlich Links und Bilder teilen, die Beiträge anderer freigeben, ihre Beiträge kommentieren und andere in Ihren eigenen Google+ Beiträgen erwähnen. Vielleicht fragen Sie sich auch, wie Sie andere dazu bringen, Ihre eigenen Beiträge öfter zu kommentieren. Teilen von Links und Bildern in Google+ So geben Sie ein ...

Teilen Ihrer Google+ Posts mit bestimmten Personen - Dummies

Teilen Ihrer Google+ Posts mit bestimmten Personen - Dummies

Beiträge auf Google+ sind ganz einfach und können posten Text, Links, Fotos, Videos und sogar Ihren aktuellen Standort. Der schwierigste Teil des Beitrags auf Google+ besteht darin, auszuwählen, wen Sie Ihren Beitrag sehen möchten. Google+ verwendet Ihre Kreise, um festzulegen, wer Ihre Beiträge sehen kann. Kreise sind etwas einfacher als Listen, weil ...

Taggen von Personen in Google+ Fotos - Dummies

Taggen von Personen in Google+ Fotos - Dummies

Sie können Personen in Ihren Kreisen auf jedem Foto auf Google+ markieren. Wenn Sie eine Person in einem Foto taggen, wird diese Person über ihre Google+ Benachrichtigungen benachrichtigt. Sie können dann das Tag entfernen oder genehmigen, und das Foto wird mit dem Tag des Namens dieser Person darin angezeigt. Um jemanden zu markieren, ...