Zuhause Persönliche Finanzen Grundlagen von Data Clusters in der Predictive Analysis - Dummies

Grundlagen von Data Clusters in der Predictive Analysis - Dummies

Video: Klassifikation Was ist das? Datamining 2025

Video: Klassifikation Was ist das? Datamining 2025
Anonim

A Datensatz < (oder Datensammlung) ist eine Reihe von Elementen in der Vorhersageanalyse. Zum Beispiel ist ein Satz von Dokumenten ein Datensatz, in dem die Datenelemente Dokumente sind. Eine Reihe von Informationen zu sozialen Netzwerkbenutzern (Name, Alter, Freunde, Fotos usw.) ist ein Datensatz, in dem die Datenelemente Profile von Nutzern sozialer Netzwerke sind. Datenclustering

ist die Aufgabe, einen Datensatz in Teilmengen ähnlicher Elemente aufzuteilen. Elemente können auch als Instanzen, Beobachtungen, Entitäten oder Datenobjekte bezeichnet werden. In den meisten Fällen wird ein Datensatz im Tabellenformat dargestellt - eine Datenmatrix . Eine Datenmatrix ist eine Tabelle mit Zahlen, Dokumenten oder Ausdrücken, die wie folgt in Zeilen und Spalten dargestellt wird:

Jede Zeile entspricht einem bestimmten Element im Datensatz.
  • Zeilen werden manchmal als

    Objekte, Objekte, Instanzen oder Beobachtungen bezeichnet. Jede Spalte repräsentiert ein bestimmtes Merkmal eines Artikels.

  • Spalten werden als

    -Features oder -attribute bezeichnet. Das Anwenden von Datenclustering auf ein Dataset generiert Gruppen ähnlicher Datenelemente. Diese Gruppen werden

Cluster genannt - Sammlungen ähnlicher Datenelemente.

Ähnliche

Artikel haben eine starke, messbare Beziehung zwischen ihnen - frisches Gemüse zum Beispiel sind einander ähnlicher als Tiefkühlkost - und Clustering-Techniken verwenden diese Beziehung zur Gruppe die Gegenstände. Die Stärke einer Beziehung zwischen zwei oder mehr Elementen kann als

Ähnlichkeitsmaß quantifiziert werden: Eine mathematische Funktion berechnet die Korrelation zwischen zwei Datenelementen. Die Ergebnisse dieser Berechnung, die Ähnlichkeitswerte genannt werden, vergleichen im Wesentlichen ein bestimmtes Datenelement mit allen anderen Elementen in dem Datensatz. Diese anderen Elemente sind im Vergleich zu diesem bestimmten Element entweder ähnlicher oder weniger ähnlich.

Berechnete Ähnlichkeiten spielen eine wichtige Rolle bei der Zuweisung von Elementen zu Gruppen (

Cluster ). Jede Gruppe hat einen Gegenstand, der sie am besten repräsentiert; Dieser Punkt wird als Clusterrepräsentant bezeichnet. Betrachten Sie einen Datensatz, der aus mehreren Arten von Früchten in einem Korb besteht. Der Korb hat Früchte verschiedener Art wie Äpfel, Bananen, Zitronen und Birnen. In diesem Fall sind Früchte die Datenelemente. Der Datenclustering-Prozess extrahiert Gruppen ähnlicher Früchte aus diesem Datensatz (Korb mit verschiedenen Früchten).

Der erste Schritt in einem Datenclustering-Prozess besteht darin, diesen Datensatz in eine Datenmatrix zu übersetzen: Eine Möglichkeit, dieses Dataset zu modellieren, besteht darin, dass die Zeilen die Elemente im Dataset (Früchte) darstellen. und die Spalten stellen Merkmale oder Merkmale dar, die die Elemente beschreiben.

Zum Beispiel kann ein Fruchtmerkmal der Fruchttyp (wie eine Banane oder ein Apfel), Gewicht, Farbe oder Preis sein. In diesem Beispieldatensatz haben die Elemente drei Merkmale: Fruchttyp, Farbe und Gewicht.

In den meisten Fällen können Sie durch das Anwenden einer Datenclustering-Technik auf das Fruchtdatensatz wie oben beschrieben

Gruppen (Cluster) ähnlicher Objekte abrufen.

  • Sie können sagen, dass Ihre Frucht aus N Gruppen besteht. Wenn Sie danach eine zufällige Frucht auswählen, können Sie eine Aussage darüber machen, dass sie Teil einer der N Gruppen ist. Ruft Clusterrepräsentanten jeder Gruppe ab.

  • In diesem Beispiel würde ein Cluster-Vertreter einen Obsttyp aus dem Korb auswählen und beiseite legen. Die Eigenschaften dieser Frucht sind so, dass diese Frucht am besten den Cluster repräsentiert, zu dem sie gehört. Wenn Sie mit dem Clustering fertig sind, wird Ihr Datensatz organisiert und in natürliche Gruppierungen unterteilt.

Das Datenclustering enthüllt die Struktur in den Daten, indem natürliche Gruppierungen aus einem Datensatz extrahiert werden. Das Auffinden von Clustern ist daher ein wesentlicher Schritt, um Ideen und Hypothesen über die Struktur Ihrer Daten zu formulieren und Erkenntnisse zum besseren Verständnis zu gewinnen.

Datenclustering kann auch eine Möglichkeit sein, Daten zu modellieren: Es stellt einen größeren Datenbestand durch Cluster oder Clusterrepräsentanten dar.

Darüber hinaus kann Ihre Analyse einfach darauf abzielen, die Daten in Gruppen mit ähnlichen Elementen aufzuteilen - wie bei der

Marktsegmentierung werden Zielmarktdaten in Gruppen wie aufgeteilt. Verbraucher mit denselben Interessen (wie mediterrane Küche)

  • Verbraucher, die gemeinsame Bedürfnisse haben (zum Beispiel solche mit spezifischen Nahrungsmittelallergien)

  • Die Identifizierung von Clustern ähnlicher Kunden kann Ihnen helfen, eine Marketingstrategie zu entwickeln, die den Bedürfnissen bestimmter Cluster entspricht.

Außerdem kann Datenclustering Ihnen dabei helfen, die Natur neuer Datenelemente zu identifizieren, zu lernen oder vorherzusagen - insbesondere, wie neue Daten mit Vorhersagen verknüpft werden können. In der

Mustererkennung kann beispielsweise die Analyse von Mustern in den Daten (z. B. Kauf von Mustern in bestimmten Regionen oder Altersgruppen) Ihnen bei der Entwicklung von Vorhersageanalysen helfen. In diesem Fall können Sie die Art zukünftiger Datenelemente vorhersagen. passt gut zu etablierten Mustern. Das Obstkorbbeispiel verwendet Datenclustering, um zwischen verschiedenen Datenelementen zu unterscheiden. Angenommen, Ihr Unternehmen baut eigene Obstkörbe zusammen und eine neue, unbekannte Frucht wird auf den Markt gebracht. Sie möchten lernen oder vorhersagen, zu welchem ​​Cluster der neue Artikel gehört, wenn Sie ihn dem Obstkorb hinzufügen.

Da Sie das Daten-Clustering bereits auf das Frucht-Dataset angewendet haben, haben Sie vier Cluster - was es einfacher macht vorherzusagen, welcher Cluster (bestimmte Fruchtart) für den neuen Gegenstand geeignet ist. Alles, was Sie tun müssen, ist, die unbekannte Frucht mit den Vertretern der anderen vier Cluster zu vergleichen und herauszufinden, welche Gruppe die beste Übereinstimmung ist.

Obwohl dieser Vorgang für eine Person, die mit einem kleinen Datensatz arbeitet, offensichtlich erscheint, ist sie in einem größeren Maßstab nicht so offensichtlich, wenn Sie Millionen von Elementen gruppieren müssen, ohne sie einzeln zu untersuchen.Die Komplexität wird exponentiell, wenn der Datensatz groß, vielfältig und relativ inkohärent ist - weshalb Clustering-Algorithmen existieren: Computer tun diese Art von Arbeit am besten.

Grundlagen von Data Clusters in der Predictive Analysis - Dummies

Die Wahl des Herausgebers

Wie man die Socialcast Mobile App benutzt - dummies

Wie man die Socialcast Mobile App benutzt - dummies

Sogar die stoischste Anwendung wie Microsoft Excel hat ein begleitendes Smartphone-App, natürlich hat Socialcast auch eine. Wenn es so wäre, wäre es nicht wirklich eine Ausrede zu sagen, dass Socialcast nicht sehr sozial wäre, wenn du es nicht mit in die große Welt außerhalb deiner Zelle mitnehmen könntest. Die mobile App ...

Wie man das App Verzeichnis von Yammer benutzt - dummies

Wie man das App Verzeichnis von Yammer benutzt - dummies

Sie haben vielleicht gehört: "Es gibt eine App dafür. "Nun, das ist der Fall bei Yammer, der als einzige Ressource für die Vernetzung am Arbeitsplatz funktioniert. Aber Yammer bietet Ihnen auch eine Menge Apps, mit denen Sie Ihr Arbeitsleben noch einfacher gestalten können. Es gibt zwei Möglichkeiten, auf das App-Verzeichnis zuzugreifen: Option ...

So ​​verwenden Sie die Yammer-Analysetools - Dummies

So ​​verwenden Sie die Yammer-Analysetools - Dummies

Yammer rühmt sich damit als "führendes soziales Unternehmensnetzwerk für Unternehmen" um die Arbeit intelligenter und schneller zu erledigen. "Woher weißt du, ob das wahr ist? Ein guter Weg, um zu sehen, wie es für Sie funktioniert, ist die Analyse von Yammer. Wie greifen Sie auf diese großartigen Tools zu? Es ist einfach. Log ...

Die Wahl des Herausgebers

Die Evolution von Distributed Computing für Big Data - Dummies

Die Evolution von Distributed Computing für Big Data - Dummies

Hinter allen wichtigen Trends des letzten Jahrzehnts, einschließlich Serviceorientierung, Cloud Computing, Virtualisierung und Big Data, ist eine grundlegende Technologie namens Distributed Computing. Einfach gesagt, ohne die Verteilung von Datenverarbeitung wäre keiner dieser Fortschritte möglich. Distributed Computing ist eine Technik, mit der einzelne Computer über geografische Gebiete hinweg miteinander vernetzt werden können, so als ob ...

Drei Anbieter mit Data Mining-Produkten - Dummies

Drei Anbieter mit Data Mining-Produkten - Dummies

Es gibt mehrere Anbieter, die Data-Mining-Produkte verkaufen, die Sie vielleicht in Betracht ziehen möchten. Verwenden Sie mit Ihrem Data Warehouse. Hier sind drei, die eine Überlegung wert sind. Microsoft Microsoft hat das serverseitige Data Mining mit Microsoft SQL Server 2005 eingeführt. Obwohl es nicht so ausgereift und ausgeklügelt wie SAS und SPSS ist, hat Microsoft im Laufe der Zeit seine Fähigkeit bewiesen ...

Grundlagen der Big-Data-Integration - Dummies

Grundlagen der Big-Data-Integration - Dummies

Die fundamentalen Elemente der Big-Data-Plattform verwalten Daten auf neue Weise verglichen mit der traditionellen relationalen Datenbank. Dies liegt daran, dass Skalierbarkeit und hohe Leistung erforderlich sind, um sowohl strukturierte als auch unstrukturierte Daten zu verwalten. Komponenten des Big-Data-Ökosystems von Hadoop bis NoSQL DB, MongoDB, Cassandra, ...

Die Wahl des Herausgebers

So ​​stellen Sie eine Verbindung zu Spotify Mobile her - Dummies

So ​​stellen Sie eine Verbindung zu Spotify Mobile her - Dummies

Die meisten modernen Smartphones sind Wi-Fi-fähig. In ein lokales Netzwerk können Sie Spotify-Tracks mithilfe von Wi-Fi auf Ihr Telefon streamen. Sie können Spotify Mobile zu Hause und über Wi-Fi-Netzwerke in Hotels und Cafés problemlos nutzen - Sie müssen nur sicherstellen, dass Sie angemeldet und verbunden sind. ...

Wie Spotify funktioniert - Dummies

Wie Spotify funktioniert - Dummies

Wie Spotify funktioniert, kann Auswirkungen auf den Festplattenspeicher Ihres Computers haben. Internetverbindung. Spotify funktioniert anders als viele andere Online-Musikdienste, weil es auf mehrere Arten angewiesen ist, um Ihnen reibungslos Musik ohne Verzögerungen zu liefern. In Computing-Sprechen, das Maß der Verzögerung zwischen Anfordern eines Songs und Hören es ...

So ​​erreichen Sie Spotify Support - Dummies

So ​​erreichen Sie Spotify Support - Dummies

Es kann vorkommen, dass Sie eine kleine Hilfe beim Navigieren und Verwenden von Spotify benötigen von deinen Spotify Freunden. Sie können jederzeit Support @ spotify per E-Mail senden. com mit Ihrer Frage oder melden Sie sich bei Twitter an und senden Sie einen Tweet an @spotify. Stellen Sie sicher, dass Sie alle Informationen einschließen, die dem Support-Team helfen könnten, einschließlich Ihres Benutzernamens, damit sie ...