Zuhause Persönliche Finanzen Grundlagen von Data Clusters in der Predictive Analysis - Dummies

Grundlagen von Data Clusters in der Predictive Analysis - Dummies

Video: Klassifikation Was ist das? Datamining 2025

Video: Klassifikation Was ist das? Datamining 2025
Anonim

A Datensatz < (oder Datensammlung) ist eine Reihe von Elementen in der Vorhersageanalyse. Zum Beispiel ist ein Satz von Dokumenten ein Datensatz, in dem die Datenelemente Dokumente sind. Eine Reihe von Informationen zu sozialen Netzwerkbenutzern (Name, Alter, Freunde, Fotos usw.) ist ein Datensatz, in dem die Datenelemente Profile von Nutzern sozialer Netzwerke sind. Datenclustering

ist die Aufgabe, einen Datensatz in Teilmengen ähnlicher Elemente aufzuteilen. Elemente können auch als Instanzen, Beobachtungen, Entitäten oder Datenobjekte bezeichnet werden. In den meisten Fällen wird ein Datensatz im Tabellenformat dargestellt - eine Datenmatrix . Eine Datenmatrix ist eine Tabelle mit Zahlen, Dokumenten oder Ausdrücken, die wie folgt in Zeilen und Spalten dargestellt wird:

Jede Zeile entspricht einem bestimmten Element im Datensatz.
  • Zeilen werden manchmal als

    Objekte, Objekte, Instanzen oder Beobachtungen bezeichnet. Jede Spalte repräsentiert ein bestimmtes Merkmal eines Artikels.

  • Spalten werden als

    -Features oder -attribute bezeichnet. Das Anwenden von Datenclustering auf ein Dataset generiert Gruppen ähnlicher Datenelemente. Diese Gruppen werden

Cluster genannt - Sammlungen ähnlicher Datenelemente.

Ähnliche

Artikel haben eine starke, messbare Beziehung zwischen ihnen - frisches Gemüse zum Beispiel sind einander ähnlicher als Tiefkühlkost - und Clustering-Techniken verwenden diese Beziehung zur Gruppe die Gegenstände. Die Stärke einer Beziehung zwischen zwei oder mehr Elementen kann als

Ähnlichkeitsmaß quantifiziert werden: Eine mathematische Funktion berechnet die Korrelation zwischen zwei Datenelementen. Die Ergebnisse dieser Berechnung, die Ähnlichkeitswerte genannt werden, vergleichen im Wesentlichen ein bestimmtes Datenelement mit allen anderen Elementen in dem Datensatz. Diese anderen Elemente sind im Vergleich zu diesem bestimmten Element entweder ähnlicher oder weniger ähnlich.

Berechnete Ähnlichkeiten spielen eine wichtige Rolle bei der Zuweisung von Elementen zu Gruppen (

Cluster ). Jede Gruppe hat einen Gegenstand, der sie am besten repräsentiert; Dieser Punkt wird als Clusterrepräsentant bezeichnet. Betrachten Sie einen Datensatz, der aus mehreren Arten von Früchten in einem Korb besteht. Der Korb hat Früchte verschiedener Art wie Äpfel, Bananen, Zitronen und Birnen. In diesem Fall sind Früchte die Datenelemente. Der Datenclustering-Prozess extrahiert Gruppen ähnlicher Früchte aus diesem Datensatz (Korb mit verschiedenen Früchten).

Der erste Schritt in einem Datenclustering-Prozess besteht darin, diesen Datensatz in eine Datenmatrix zu übersetzen: Eine Möglichkeit, dieses Dataset zu modellieren, besteht darin, dass die Zeilen die Elemente im Dataset (Früchte) darstellen. und die Spalten stellen Merkmale oder Merkmale dar, die die Elemente beschreiben.

Zum Beispiel kann ein Fruchtmerkmal der Fruchttyp (wie eine Banane oder ein Apfel), Gewicht, Farbe oder Preis sein. In diesem Beispieldatensatz haben die Elemente drei Merkmale: Fruchttyp, Farbe und Gewicht.

In den meisten Fällen können Sie durch das Anwenden einer Datenclustering-Technik auf das Fruchtdatensatz wie oben beschrieben

Gruppen (Cluster) ähnlicher Objekte abrufen.

  • Sie können sagen, dass Ihre Frucht aus N Gruppen besteht. Wenn Sie danach eine zufällige Frucht auswählen, können Sie eine Aussage darüber machen, dass sie Teil einer der N Gruppen ist. Ruft Clusterrepräsentanten jeder Gruppe ab.

  • In diesem Beispiel würde ein Cluster-Vertreter einen Obsttyp aus dem Korb auswählen und beiseite legen. Die Eigenschaften dieser Frucht sind so, dass diese Frucht am besten den Cluster repräsentiert, zu dem sie gehört. Wenn Sie mit dem Clustering fertig sind, wird Ihr Datensatz organisiert und in natürliche Gruppierungen unterteilt.

Das Datenclustering enthüllt die Struktur in den Daten, indem natürliche Gruppierungen aus einem Datensatz extrahiert werden. Das Auffinden von Clustern ist daher ein wesentlicher Schritt, um Ideen und Hypothesen über die Struktur Ihrer Daten zu formulieren und Erkenntnisse zum besseren Verständnis zu gewinnen.

Datenclustering kann auch eine Möglichkeit sein, Daten zu modellieren: Es stellt einen größeren Datenbestand durch Cluster oder Clusterrepräsentanten dar.

Darüber hinaus kann Ihre Analyse einfach darauf abzielen, die Daten in Gruppen mit ähnlichen Elementen aufzuteilen - wie bei der

Marktsegmentierung werden Zielmarktdaten in Gruppen wie aufgeteilt. Verbraucher mit denselben Interessen (wie mediterrane Küche)

  • Verbraucher, die gemeinsame Bedürfnisse haben (zum Beispiel solche mit spezifischen Nahrungsmittelallergien)

  • Die Identifizierung von Clustern ähnlicher Kunden kann Ihnen helfen, eine Marketingstrategie zu entwickeln, die den Bedürfnissen bestimmter Cluster entspricht.

Außerdem kann Datenclustering Ihnen dabei helfen, die Natur neuer Datenelemente zu identifizieren, zu lernen oder vorherzusagen - insbesondere, wie neue Daten mit Vorhersagen verknüpft werden können. In der

Mustererkennung kann beispielsweise die Analyse von Mustern in den Daten (z. B. Kauf von Mustern in bestimmten Regionen oder Altersgruppen) Ihnen bei der Entwicklung von Vorhersageanalysen helfen. In diesem Fall können Sie die Art zukünftiger Datenelemente vorhersagen. passt gut zu etablierten Mustern. Das Obstkorbbeispiel verwendet Datenclustering, um zwischen verschiedenen Datenelementen zu unterscheiden. Angenommen, Ihr Unternehmen baut eigene Obstkörbe zusammen und eine neue, unbekannte Frucht wird auf den Markt gebracht. Sie möchten lernen oder vorhersagen, zu welchem ​​Cluster der neue Artikel gehört, wenn Sie ihn dem Obstkorb hinzufügen.

Da Sie das Daten-Clustering bereits auf das Frucht-Dataset angewendet haben, haben Sie vier Cluster - was es einfacher macht vorherzusagen, welcher Cluster (bestimmte Fruchtart) für den neuen Gegenstand geeignet ist. Alles, was Sie tun müssen, ist, die unbekannte Frucht mit den Vertretern der anderen vier Cluster zu vergleichen und herauszufinden, welche Gruppe die beste Übereinstimmung ist.

Obwohl dieser Vorgang für eine Person, die mit einem kleinen Datensatz arbeitet, offensichtlich erscheint, ist sie in einem größeren Maßstab nicht so offensichtlich, wenn Sie Millionen von Elementen gruppieren müssen, ohne sie einzeln zu untersuchen.Die Komplexität wird exponentiell, wenn der Datensatz groß, vielfältig und relativ inkohärent ist - weshalb Clustering-Algorithmen existieren: Computer tun diese Art von Arbeit am besten.

Grundlagen von Data Clusters in der Predictive Analysis - Dummies

Die Wahl des Herausgebers

Auflistung Vereinbarungen über die Immobilienlizenz Prüfung - Dummies

Auflistung Vereinbarungen über die Immobilienlizenz Prüfung - Dummies

Listing-Vereinbarungen werden auf der Immobilien abgedeckt werden Lizenzprüfung. Eine Listungsvereinbarung stellt eine Agenturbeziehung zwischen einem Agenten und einem Grundstücksverkäufer her. Der Vertreter verpflichtet sich, den Verkäufer bei der Vermarktung der Immobilie zu vertreten. Hier sind die Namen und Beschreibungen der vier Arten von Listing-Vereinbarungen in der Reihenfolge, in der sie sind ...

Immobilien-Lizenz-Prüfung: 7 Verwirrende Wortpaare - Dummies

Immobilien-Lizenz-Prüfung: 7 Verwirrende Wortpaare - Dummies

Bevor Sie Ihre Immobilienlizenz nehmen Es ist wichtig, dass Sie den Unterschied zwischen ähnlich klingenden Begriffen verstehen. Die folgenden Immobilienbegriffe sind am häufigsten verwirrt; Holen Sie sich diese auswendig und Sie sind auf dem Weg zu mehr richtigen Antworten. Eigentumswohnung / Genossenschaft: Ein Eigentümer einer Eigentumswohnung besitzt tatsächlich Immobilien. Dieser Besitz ist in der Regel der Luftraum ...

Hypothek Akzeptanz Überlegungen zur Immobilienlizenz Prüfung - Dummies

Hypothek Akzeptanz Überlegungen zur Immobilienlizenz Prüfung - Dummies

Die Immobilienlizenz Prüfung wird Fragen zu Hypotheken und Kreditgebern. Ein primärer Kreditgeber hat zwei Überlegungen, wenn er einen Kredit für den Kauf oder die Refinanzierung von Immobilien vergibt: den Wert der Immobilie und die Fähigkeit des Kreditnehmers, die Schulden zu tilgen. Bei der Überprüfung des Wertes der Immobilie, ...

Die Wahl des Herausgebers

GED Fragen der wissenschaftlichen Praxis: Arbeit, Bewegung und Kraft - Dummies

GED Fragen der wissenschaftlichen Praxis: Arbeit, Bewegung und Kraft - Dummies

Die Gesetze von Physik beeinflusst alle Arten von alltäglichen Aktivitäten, vom Autofahren bis zum Baseballspiel. Es überrascht daher nicht, dass sich einige Fragen zum GED Science-Test mit Konzepten wie Arbeit, Bewegung und Kraft befassen. In den folgenden Übungsfragen müssen Sie sowohl Theorie als auch gesunden Menschenverstand anwenden, um ...

GED Beispielfragen: Argumentieren durch Sprachkunst Lesen von technischen Informationen - Dummies

GED Beispielfragen: Argumentieren durch Sprachkunst Lesen von technischen Informationen - Dummies

Zu den Begründungen Durch die Sprachabteilung der GED können Sie gebeten werden, Fragen zu einer technischen Passage zu beantworten. Dies könnte Anweisungen zur Fertigstellung enthalten, wie die folgenden. Die Fragen in diesem Artikel beziehen sich auf den folgenden Auszug aus Russell Harts Fotografie für Dummies, 2. Auflage (Wiley). Was ist das Geheimnis für ...?

GED Beispielfragen: Kurze wissenschaftliche Antwortfragen - Dummys

GED Beispielfragen: Kurze wissenschaftliche Antwortfragen - Dummys

Irgendwann während des Science-Teils der GEE-Test, werden Sie gebeten, eine kurze Antwort zu verfassen. Sie werden eine Passage erhalten und eine Frage stellen, auf die Sie antworten müssen. Machen Sie Ihre Antwort klar und prägnant. Kurzer Antwortdurchgang Jeder kennt Cheddar-Käse. Leute setzen ...

Die Wahl des Herausgebers

Stärkung des Selbstwertgefühls für Dummies Cheat Sheet (UK Edition) - Dummies

Stärkung des Selbstwertgefühls für Dummies Cheat Sheet (UK Edition) - Dummies

Selbstzweifel und schlechte Selbstwertschätzung scheinen Hand in Hand mit dem Menschsein zu gehen. Selbst wenn Sie im Allgemeinen gesund und ein gutes Selbstwertgefühl haben, haben Sie wahrscheinlich Zeiten in Ihrem Leben, an denen Sie sich unwohl fühlen und Gedanken und Gedanken über sich selbst verunglimpfen. Um zu helfen, halten Sie diesen Spickzettel, damit Sie ein paar Tipps und Hinweise haben ...

Antipsychotika und die Behandlung der bipolaren Störung - Dummies

Antipsychotika und die Behandlung der bipolaren Störung - Dummies

Atypische Antipsychotika (atypische Neuroleptika oder Antipsychotika der zweiten Generation) ursprünglich formuliert, um Psychose bei Schizophrenie zu behandeln, aber diese Klasse von Medikamenten hat sich auch als wirksam bei der Verringerung der Manie und Augmentierung Antidepressiva Behandlung erwiesen. Die atypische oder zweite Generation stammt aus der Tatsache, dass diese neuere Art von Antipsychotika anders funktioniert als der ältere Standard oder Neuroleptika der ersten Generation, ...

Verwaltung von Angst mit Achtsamkeit für Dummies Cheat Sheet - Dummies

Verwaltung von Angst mit Achtsamkeit für Dummies Cheat Sheet - Dummies

Sie möchten mehr darüber erfahren, wie Sie Ihre Angst mit Achtsamkeit? Sieh dir den Spickzettel an und entdecke die häufigsten Ursachen von Angstzuständen. Versuchen Sie eine kurze Achtsamkeitsübung, die Ihrer Angst helfen kann. Erkunde Wege, wie du deine ängstlichen Gedanken achtsam handhaben kannst. Finden Sie einfache Möglichkeiten heraus, jeden Tag aufmerksam zu sein. Dieser Spickzettel ...