Zuhause Persönliche Finanzen Grundlagen von Data Clusters in der Predictive Analysis - Dummies

Grundlagen von Data Clusters in der Predictive Analysis - Dummies

Video: Klassifikation Was ist das? Datamining 2025

Video: Klassifikation Was ist das? Datamining 2025
Anonim

A Datensatz < (oder Datensammlung) ist eine Reihe von Elementen in der Vorhersageanalyse. Zum Beispiel ist ein Satz von Dokumenten ein Datensatz, in dem die Datenelemente Dokumente sind. Eine Reihe von Informationen zu sozialen Netzwerkbenutzern (Name, Alter, Freunde, Fotos usw.) ist ein Datensatz, in dem die Datenelemente Profile von Nutzern sozialer Netzwerke sind. Datenclustering

ist die Aufgabe, einen Datensatz in Teilmengen ähnlicher Elemente aufzuteilen. Elemente können auch als Instanzen, Beobachtungen, Entitäten oder Datenobjekte bezeichnet werden. In den meisten Fällen wird ein Datensatz im Tabellenformat dargestellt - eine Datenmatrix . Eine Datenmatrix ist eine Tabelle mit Zahlen, Dokumenten oder Ausdrücken, die wie folgt in Zeilen und Spalten dargestellt wird:

Jede Zeile entspricht einem bestimmten Element im Datensatz.
  • Zeilen werden manchmal als

    Objekte, Objekte, Instanzen oder Beobachtungen bezeichnet. Jede Spalte repräsentiert ein bestimmtes Merkmal eines Artikels.

  • Spalten werden als

    -Features oder -attribute bezeichnet. Das Anwenden von Datenclustering auf ein Dataset generiert Gruppen ähnlicher Datenelemente. Diese Gruppen werden

Cluster genannt - Sammlungen ähnlicher Datenelemente.

Ähnliche

Artikel haben eine starke, messbare Beziehung zwischen ihnen - frisches Gemüse zum Beispiel sind einander ähnlicher als Tiefkühlkost - und Clustering-Techniken verwenden diese Beziehung zur Gruppe die Gegenstände. Die Stärke einer Beziehung zwischen zwei oder mehr Elementen kann als

Ähnlichkeitsmaß quantifiziert werden: Eine mathematische Funktion berechnet die Korrelation zwischen zwei Datenelementen. Die Ergebnisse dieser Berechnung, die Ähnlichkeitswerte genannt werden, vergleichen im Wesentlichen ein bestimmtes Datenelement mit allen anderen Elementen in dem Datensatz. Diese anderen Elemente sind im Vergleich zu diesem bestimmten Element entweder ähnlicher oder weniger ähnlich.

Berechnete Ähnlichkeiten spielen eine wichtige Rolle bei der Zuweisung von Elementen zu Gruppen (

Cluster ). Jede Gruppe hat einen Gegenstand, der sie am besten repräsentiert; Dieser Punkt wird als Clusterrepräsentant bezeichnet. Betrachten Sie einen Datensatz, der aus mehreren Arten von Früchten in einem Korb besteht. Der Korb hat Früchte verschiedener Art wie Äpfel, Bananen, Zitronen und Birnen. In diesem Fall sind Früchte die Datenelemente. Der Datenclustering-Prozess extrahiert Gruppen ähnlicher Früchte aus diesem Datensatz (Korb mit verschiedenen Früchten).

Der erste Schritt in einem Datenclustering-Prozess besteht darin, diesen Datensatz in eine Datenmatrix zu übersetzen: Eine Möglichkeit, dieses Dataset zu modellieren, besteht darin, dass die Zeilen die Elemente im Dataset (Früchte) darstellen. und die Spalten stellen Merkmale oder Merkmale dar, die die Elemente beschreiben.

Zum Beispiel kann ein Fruchtmerkmal der Fruchttyp (wie eine Banane oder ein Apfel), Gewicht, Farbe oder Preis sein. In diesem Beispieldatensatz haben die Elemente drei Merkmale: Fruchttyp, Farbe und Gewicht.

In den meisten Fällen können Sie durch das Anwenden einer Datenclustering-Technik auf das Fruchtdatensatz wie oben beschrieben

Gruppen (Cluster) ähnlicher Objekte abrufen.

  • Sie können sagen, dass Ihre Frucht aus N Gruppen besteht. Wenn Sie danach eine zufällige Frucht auswählen, können Sie eine Aussage darüber machen, dass sie Teil einer der N Gruppen ist. Ruft Clusterrepräsentanten jeder Gruppe ab.

  • In diesem Beispiel würde ein Cluster-Vertreter einen Obsttyp aus dem Korb auswählen und beiseite legen. Die Eigenschaften dieser Frucht sind so, dass diese Frucht am besten den Cluster repräsentiert, zu dem sie gehört. Wenn Sie mit dem Clustering fertig sind, wird Ihr Datensatz organisiert und in natürliche Gruppierungen unterteilt.

Das Datenclustering enthüllt die Struktur in den Daten, indem natürliche Gruppierungen aus einem Datensatz extrahiert werden. Das Auffinden von Clustern ist daher ein wesentlicher Schritt, um Ideen und Hypothesen über die Struktur Ihrer Daten zu formulieren und Erkenntnisse zum besseren Verständnis zu gewinnen.

Datenclustering kann auch eine Möglichkeit sein, Daten zu modellieren: Es stellt einen größeren Datenbestand durch Cluster oder Clusterrepräsentanten dar.

Darüber hinaus kann Ihre Analyse einfach darauf abzielen, die Daten in Gruppen mit ähnlichen Elementen aufzuteilen - wie bei der

Marktsegmentierung werden Zielmarktdaten in Gruppen wie aufgeteilt. Verbraucher mit denselben Interessen (wie mediterrane Küche)

  • Verbraucher, die gemeinsame Bedürfnisse haben (zum Beispiel solche mit spezifischen Nahrungsmittelallergien)

  • Die Identifizierung von Clustern ähnlicher Kunden kann Ihnen helfen, eine Marketingstrategie zu entwickeln, die den Bedürfnissen bestimmter Cluster entspricht.

Außerdem kann Datenclustering Ihnen dabei helfen, die Natur neuer Datenelemente zu identifizieren, zu lernen oder vorherzusagen - insbesondere, wie neue Daten mit Vorhersagen verknüpft werden können. In der

Mustererkennung kann beispielsweise die Analyse von Mustern in den Daten (z. B. Kauf von Mustern in bestimmten Regionen oder Altersgruppen) Ihnen bei der Entwicklung von Vorhersageanalysen helfen. In diesem Fall können Sie die Art zukünftiger Datenelemente vorhersagen. passt gut zu etablierten Mustern. Das Obstkorbbeispiel verwendet Datenclustering, um zwischen verschiedenen Datenelementen zu unterscheiden. Angenommen, Ihr Unternehmen baut eigene Obstkörbe zusammen und eine neue, unbekannte Frucht wird auf den Markt gebracht. Sie möchten lernen oder vorhersagen, zu welchem ​​Cluster der neue Artikel gehört, wenn Sie ihn dem Obstkorb hinzufügen.

Da Sie das Daten-Clustering bereits auf das Frucht-Dataset angewendet haben, haben Sie vier Cluster - was es einfacher macht vorherzusagen, welcher Cluster (bestimmte Fruchtart) für den neuen Gegenstand geeignet ist. Alles, was Sie tun müssen, ist, die unbekannte Frucht mit den Vertretern der anderen vier Cluster zu vergleichen und herauszufinden, welche Gruppe die beste Übereinstimmung ist.

Obwohl dieser Vorgang für eine Person, die mit einem kleinen Datensatz arbeitet, offensichtlich erscheint, ist sie in einem größeren Maßstab nicht so offensichtlich, wenn Sie Millionen von Elementen gruppieren müssen, ohne sie einzeln zu untersuchen.Die Komplexität wird exponentiell, wenn der Datensatz groß, vielfältig und relativ inkohärent ist - weshalb Clustering-Algorithmen existieren: Computer tun diese Art von Arbeit am besten.

Grundlagen von Data Clusters in der Predictive Analysis - Dummies

Die Wahl des Herausgebers

Web Marketing: Warum Suchmaschinen existieren - Dummies

Web Marketing: Warum Suchmaschinen existieren - Dummies

Wenn Sie verstehen, warum Suchmaschinen existieren, können sie für Sie in Ihrem Web-Marketing-Geschäft arbeiten. Also, hier ist eine kurze Lektion, warum Suchmaschinen existieren und wie Sie sie nutzen können, um Geld zu verdienen. Suchmaschinen liefern Relevanz. Relevanz bedeutet, dass Besucher auf Suchergebnisse klicken und zufrieden sind mit ...

Was sind Tür- und Informationsseiten? - dummies

Was sind Tür- und Informationsseiten? - dummies

Eine Doorway-Seite wird nur als Zugang von einer Suchmaschine zu Ihrer Website erstellt. Doorway-Seiten werden manchmal als Gateway-Seiten und Geisterseiten bezeichnet. Die Idee besteht darin, hoch optimierte Seiten zu erstellen, die von Suchmaschinen aufgenommen und indiziert werden und die mit etwas Glück gut ranken und somit den Traffic auf eine ...

Was ist eine Weiterleitung bei der Suchmaschinenoptimierung? - Dummies

Was ist eine Weiterleitung bei der Suchmaschinenoptimierung? - Dummies

Eine Weiterleitung ist das automatische Laden einer Seite ohne Benutzereingriff. Sie klicken auf einen Link, um eine Webseite in Ihren Browser zu laden, und innerhalb von Sekunden verschwindet die geladene Seite, und eine neue wird angezeigt. Designer erstellen häufig Seiten für Suchmaschinen - optimierte, schlüsselwortreiche Seiten -, die Besucher auf die ...

Die Wahl des Herausgebers

Behandeln Probleme mit dem Kundenservice über Social Media - Dummies

Behandeln Probleme mit dem Kundenservice über Social Media - Dummies

, Wenn Kunden wissen, dass sie direkt mit ein Geschäft in den sozialen Medien, können sie aus einer beliebigen Anzahl von Gründen mit ihnen in Verbindung treten. Aber sobald sie merken, dass ein Problem mit dem Kundenservice oder einer Produktfrage über einen einzigen Tweet oder Beitrag angesprochen werden kann, ist es wahrscheinlicher, dass sie mit dem Unternehmen Geschäfte machen.

Acht Möglichkeiten, Social Media Feedback zu erhalten - Dummies

Acht Möglichkeiten, Social Media Feedback zu erhalten - Dummies

Die heutige Technologie verändert die Art und Weise, wie wir Geschäfte machen blitzschnell. Auch der Social-Media-Handel bewegt sich blitzschnell, aber durch die Beobachtung von Erwähnungen und Fragen an die Community können Sie einen Eindruck davon bekommen, wie Ihr Markt über bevorstehende Veränderungen denkt. Auch andere Posts können Ihnen helfen, kritisches Feedback aus der Öffentlichkeit zusammenzustellen ...

Manage Social Media Commerce mit HootSuite - dummies

Manage Social Media Commerce mit HootSuite - dummies

HootSuite ist ein Social Media Management System zur Umsetzung von Outreach und Überwachung in sozialen Netzwerken über ein einziges webbasiertes Dashboard. Für Unternehmen wird HootSuite am häufigsten von Social-Media-Teams mit mehreren Agenten verwendet, aber auch viele Einzelanwender mögen es. Wenn Sie auf der Suche nach einer robusten Plattform sind, die alles an einem Ort hält, ...

Die Wahl des Herausgebers

Die 5 Kornsterne der Mittelmeer - Dummies

Die 5 Kornsterne der Mittelmeer - Dummies

Die Mittelmeerdiät ist in der Praxis des Habens begründet ein Vollkorn zu jeder Mahlzeit. Und nein, das bedeutet nicht, eine ganze Platte Vollkornspaghetti mit Fleischsauce zum Abendessen zu essen. Stattdessen machen die Menschen im Mittelmeerraum ihr Getreide zur Beilage oder schaffen durch die Zugabe von magerem Eiweiß mehr Gleichgewicht ...

Strebe nach Gesundheit mit 7 bis 10 Portionen Obst und Gemüse - Schnuller

Strebe nach Gesundheit mit 7 bis 10 Portionen Obst und Gemüse - Schnuller

Der Verzehr von sieben bis zehn Portionen Obst und Gemüse pro Tag, wie sie für die mediterrane Ernährung empfohlen werden, mag sehr viel erscheinen, aber es muss keine so große Herausforderung sein. Wenn Sie nicht die Früchte und das Gemüse lieben, die spezifisch mit der Mittelmeerdiät verbunden sind, ist das okay! Essen Sie jede Art von Obst oder Gemüse, die Sie ...

Die gesundheitlichen Vorteile von mediterranen Kräutern und Gewürzen - Dummies

Die gesundheitlichen Vorteile von mediterranen Kräutern und Gewürzen - Dummies

Sie haben vielleicht gedacht, dass der Oregano und Basilikum in Ihrer Spaghetti-Sauce lieferte nur einen deutlichen italienischen oder mediterranen Geschmack, aber diese kleinen Kräuter sind Pflanzen, was bedeutet, dass sie alle Arten von gesundheitlichen Vorteilen haben, die einen großen Einfluss auf Ihre allgemeine Gesundheit haben können. Einfache Gewürze wie Ingwer und Oregano enthalten Phytochemikalien, ...