Zuhause Persönliche Finanzen Grundlagen von Data Clusters in der Predictive Analysis - Dummies

Grundlagen von Data Clusters in der Predictive Analysis - Dummies

Video: Klassifikation Was ist das? Datamining 2025

Video: Klassifikation Was ist das? Datamining 2025
Anonim

A Datensatz < (oder Datensammlung) ist eine Reihe von Elementen in der Vorhersageanalyse. Zum Beispiel ist ein Satz von Dokumenten ein Datensatz, in dem die Datenelemente Dokumente sind. Eine Reihe von Informationen zu sozialen Netzwerkbenutzern (Name, Alter, Freunde, Fotos usw.) ist ein Datensatz, in dem die Datenelemente Profile von Nutzern sozialer Netzwerke sind. Datenclustering

ist die Aufgabe, einen Datensatz in Teilmengen ähnlicher Elemente aufzuteilen. Elemente können auch als Instanzen, Beobachtungen, Entitäten oder Datenobjekte bezeichnet werden. In den meisten Fällen wird ein Datensatz im Tabellenformat dargestellt - eine Datenmatrix . Eine Datenmatrix ist eine Tabelle mit Zahlen, Dokumenten oder Ausdrücken, die wie folgt in Zeilen und Spalten dargestellt wird:

Jede Zeile entspricht einem bestimmten Element im Datensatz.
  • Zeilen werden manchmal als

    Objekte, Objekte, Instanzen oder Beobachtungen bezeichnet. Jede Spalte repräsentiert ein bestimmtes Merkmal eines Artikels.

  • Spalten werden als

    -Features oder -attribute bezeichnet. Das Anwenden von Datenclustering auf ein Dataset generiert Gruppen ähnlicher Datenelemente. Diese Gruppen werden

Cluster genannt - Sammlungen ähnlicher Datenelemente.

Ähnliche

Artikel haben eine starke, messbare Beziehung zwischen ihnen - frisches Gemüse zum Beispiel sind einander ähnlicher als Tiefkühlkost - und Clustering-Techniken verwenden diese Beziehung zur Gruppe die Gegenstände. Die Stärke einer Beziehung zwischen zwei oder mehr Elementen kann als

Ähnlichkeitsmaß quantifiziert werden: Eine mathematische Funktion berechnet die Korrelation zwischen zwei Datenelementen. Die Ergebnisse dieser Berechnung, die Ähnlichkeitswerte genannt werden, vergleichen im Wesentlichen ein bestimmtes Datenelement mit allen anderen Elementen in dem Datensatz. Diese anderen Elemente sind im Vergleich zu diesem bestimmten Element entweder ähnlicher oder weniger ähnlich.

Berechnete Ähnlichkeiten spielen eine wichtige Rolle bei der Zuweisung von Elementen zu Gruppen (

Cluster ). Jede Gruppe hat einen Gegenstand, der sie am besten repräsentiert; Dieser Punkt wird als Clusterrepräsentant bezeichnet. Betrachten Sie einen Datensatz, der aus mehreren Arten von Früchten in einem Korb besteht. Der Korb hat Früchte verschiedener Art wie Äpfel, Bananen, Zitronen und Birnen. In diesem Fall sind Früchte die Datenelemente. Der Datenclustering-Prozess extrahiert Gruppen ähnlicher Früchte aus diesem Datensatz (Korb mit verschiedenen Früchten).

Der erste Schritt in einem Datenclustering-Prozess besteht darin, diesen Datensatz in eine Datenmatrix zu übersetzen: Eine Möglichkeit, dieses Dataset zu modellieren, besteht darin, dass die Zeilen die Elemente im Dataset (Früchte) darstellen. und die Spalten stellen Merkmale oder Merkmale dar, die die Elemente beschreiben.

Zum Beispiel kann ein Fruchtmerkmal der Fruchttyp (wie eine Banane oder ein Apfel), Gewicht, Farbe oder Preis sein. In diesem Beispieldatensatz haben die Elemente drei Merkmale: Fruchttyp, Farbe und Gewicht.

In den meisten Fällen können Sie durch das Anwenden einer Datenclustering-Technik auf das Fruchtdatensatz wie oben beschrieben

Gruppen (Cluster) ähnlicher Objekte abrufen.

  • Sie können sagen, dass Ihre Frucht aus N Gruppen besteht. Wenn Sie danach eine zufällige Frucht auswählen, können Sie eine Aussage darüber machen, dass sie Teil einer der N Gruppen ist. Ruft Clusterrepräsentanten jeder Gruppe ab.

  • In diesem Beispiel würde ein Cluster-Vertreter einen Obsttyp aus dem Korb auswählen und beiseite legen. Die Eigenschaften dieser Frucht sind so, dass diese Frucht am besten den Cluster repräsentiert, zu dem sie gehört. Wenn Sie mit dem Clustering fertig sind, wird Ihr Datensatz organisiert und in natürliche Gruppierungen unterteilt.

Das Datenclustering enthüllt die Struktur in den Daten, indem natürliche Gruppierungen aus einem Datensatz extrahiert werden. Das Auffinden von Clustern ist daher ein wesentlicher Schritt, um Ideen und Hypothesen über die Struktur Ihrer Daten zu formulieren und Erkenntnisse zum besseren Verständnis zu gewinnen.

Datenclustering kann auch eine Möglichkeit sein, Daten zu modellieren: Es stellt einen größeren Datenbestand durch Cluster oder Clusterrepräsentanten dar.

Darüber hinaus kann Ihre Analyse einfach darauf abzielen, die Daten in Gruppen mit ähnlichen Elementen aufzuteilen - wie bei der

Marktsegmentierung werden Zielmarktdaten in Gruppen wie aufgeteilt. Verbraucher mit denselben Interessen (wie mediterrane Küche)

  • Verbraucher, die gemeinsame Bedürfnisse haben (zum Beispiel solche mit spezifischen Nahrungsmittelallergien)

  • Die Identifizierung von Clustern ähnlicher Kunden kann Ihnen helfen, eine Marketingstrategie zu entwickeln, die den Bedürfnissen bestimmter Cluster entspricht.

Außerdem kann Datenclustering Ihnen dabei helfen, die Natur neuer Datenelemente zu identifizieren, zu lernen oder vorherzusagen - insbesondere, wie neue Daten mit Vorhersagen verknüpft werden können. In der

Mustererkennung kann beispielsweise die Analyse von Mustern in den Daten (z. B. Kauf von Mustern in bestimmten Regionen oder Altersgruppen) Ihnen bei der Entwicklung von Vorhersageanalysen helfen. In diesem Fall können Sie die Art zukünftiger Datenelemente vorhersagen. passt gut zu etablierten Mustern. Das Obstkorbbeispiel verwendet Datenclustering, um zwischen verschiedenen Datenelementen zu unterscheiden. Angenommen, Ihr Unternehmen baut eigene Obstkörbe zusammen und eine neue, unbekannte Frucht wird auf den Markt gebracht. Sie möchten lernen oder vorhersagen, zu welchem ​​Cluster der neue Artikel gehört, wenn Sie ihn dem Obstkorb hinzufügen.

Da Sie das Daten-Clustering bereits auf das Frucht-Dataset angewendet haben, haben Sie vier Cluster - was es einfacher macht vorherzusagen, welcher Cluster (bestimmte Fruchtart) für den neuen Gegenstand geeignet ist. Alles, was Sie tun müssen, ist, die unbekannte Frucht mit den Vertretern der anderen vier Cluster zu vergleichen und herauszufinden, welche Gruppe die beste Übereinstimmung ist.

Obwohl dieser Vorgang für eine Person, die mit einem kleinen Datensatz arbeitet, offensichtlich erscheint, ist sie in einem größeren Maßstab nicht so offensichtlich, wenn Sie Millionen von Elementen gruppieren müssen, ohne sie einzeln zu untersuchen.Die Komplexität wird exponentiell, wenn der Datensatz groß, vielfältig und relativ inkohärent ist - weshalb Clustering-Algorithmen existieren: Computer tun diese Art von Arbeit am besten.

Grundlagen von Data Clusters in der Predictive Analysis - Dummies

Die Wahl des Herausgebers

Anzeigen von elektrischen Signalen an einem Oszilloskop - Dummies

Anzeigen von elektrischen Signalen an einem Oszilloskop - Dummies

Ein Oszilloskop ermöglicht das Anzeigen eines elektrischen Signals durch Anzeigen einer Spannung. variiert mit der Zeit als eine Spur über eine Anzeige. Die vertikale Achsenspannung zeigt die Größe der Spannung (auch Amplitude genannt) an, und die horizontale Achse repräsentiert die Zeit. (Denken Sie daran, Gleichungen in Mathematik-Klasse zu zeichnen? Nun, die Anzeige auf einem Bereich ist wirklich ...

Eintauchen in DX-ing - Dummies

Eintauchen in DX-ing - Dummies

Drücken Sie Ihre Station, um Kontakte über immer größere Entfernungen herzustellen (DX bedeutet entfernte Stationen ist die zweitälteste Aktivität im gesamten Amateurfunk. Irgendwo im Äther ist eine Station immer nur verlockend außer Reichweite und die Herausforderung, diese Station zu kontaktieren, ist der Zweck von DX-ing. Tausende von Schinken über ...

Steuern Sie Ihre Elektronik über einen Parallelport - Dummies

Steuern Sie Ihre Elektronik über einen Parallelport - Dummies

Werfen Sie nicht weg alter Computer! Wenn es einen Parallelport hat, können Sie damit Ihre elektronischen Gadgets steuern. Bis vor einigen Jahren waren alle Computer mit einem parallelen Anschluss ausgestattet, der hauptsächlich zum Anschluss an einen Drucker verwendet wurde. Heutzutage verbinden sich die meisten Drucker über USB-Ports mit Computern. Der Parallelport ...

Die Wahl des Herausgebers

Neuro-linguistisches Programmieren: Zu Deinem Selbst Selbst Seien Wahr - Attrappen

Neuro-linguistisches Programmieren: Zu Deinem Selbst Selbst Seien Wahr - Attrappen

Fahren nicht durch dein Leben mit einem Fuß auf der Bremse, weil du versuchst, den Erwartungen anderer Menschen gerecht zu werden. Persönliche Verantwortung und echtes Autofahren ist viel einfacher, wenn man versteht, wer man im Mittelpunkt steht und was man im Leben erreichen will. Sie können Maßnahmen ergreifen, wenn Sie ...

Bewegen Jenseits von Typ A: Abheben der Uhr - Dummies

Bewegen Jenseits von Typ A: Abheben der Uhr - Dummies

Typ A sind von der Zeit besessen. "Das nimmt zu viel Zeit in Anspruch" "Verdammt, es wird spät - ich werde nie pünktlich fertig sein." "Ich wünschte, sie würden sich beeilen. "Typ A hat ein beschleunigtes Zeitgefühl. Sie fühlen, wie die Zeit im Laufe des Tages immer mehr "abrutscht". Dies führt zu einem ...

Stimmung Störungen und ihre Behandlung Medikamente - Dummies

Stimmung Störungen und ihre Behandlung Medikamente - Dummies

Stimmungsstörungen, auch als affektive Störungen bekannt, sind eine Gruppe von Krankheiten gekennzeichnet durch eine deutliche Veränderung des emotionalen Zustandes einer Person. Die drei häufigsten Stimmungsstörungen sind bipolare Störung, Dysthymie und Major Depression. Stimmungsstörungen betreffen fast 21 Prozent der Erwachsenen in den Vereinigten Staaten. Die meisten Betroffenen finden jedoch ein gewisses Maß an ...

Die Wahl des Herausgebers

So ​​wählen Sie die von Ihnen benötigten AWS-Dienste aus - Attrappen

So ​​wählen Sie die von Ihnen benötigten AWS-Dienste aus - Attrappen

Denken Sie daran, dass Sie nur 12 Monate frei haben Entscheidungsprozess darüber, welche AWS-Dienste (Amazon Web Services) in Ihrem Unternehmen verwendet werden sollen. Zwölf Monate mögen sehr viel Zeit in Anspruch nehmen, aber Sie werden feststellen, dass es vor Ihren Augen verdunstet, wenn Sie versuchen, Ihre täglichen Aufgaben, Meetings, ... zu bewältigen.

Amazon Web Services für Dummies Cheat Sheet - Dummies

Amazon Web Services für Dummies Cheat Sheet - Dummies

Amazon Web Services (AWS) ist ein Cloud-Dienstanbieter, der bietet einfachen Zugriff auf eine Vielzahl von nützlichen Computerressourcen, die alle auf bedarfsgerechte, kosteneffiziente Weise angeboten werden. Wenn Sie ein IT-Praktiker sind, der bereit ist, Amazon Web Services zu nutzen, brechen Sie Ihre alten Anwendungsmuster-Gewohnheiten und implementieren Sie neue Ansätze, die AWS-Eigenschaften und ...

AWS-Sicherheitsprobleme - Dummies

AWS-Sicherheitsprobleme - Dummies

Für die Verwendung von AWS (Amazon Web Services) müssen Sie die Sicherheit Ihres Computers in einem Weg. Administratoren und Sicherheitsexperten können sich schnell verrückt machen, wenn sie versuchen, diese miteinander verbundenen Computer sicher zu halten, aber das ist Teil der Stellenbeschreibung. Sie müssen Best Practices bei der Sicherung der Computersysteme und der darin enthaltenen Daten befolgen.