Video: 3.9 50 Big Data & Data Mining 2024
Data Mining hat sehr strenge Anforderungen an die Datenorganisation. Sie sind nicht exotisch, komplex oder schwierig zu erfüllen, aber sie sind streng. Die Abbildung zeigt eine Datenprobe, die in einer Data-Mining-Software als Tabelle angezeigt wird.
Jede Zeile repräsentiert ein Grundstück. Informationen über die Parzellen von Immobilien sind in Spalten organisiert. Die erste Spalte enthält die Steueridentifikationsnummer (TAXKEY), die zweite Spalte enthält den geschätzten Wert des Landes aus einer vorherigen Bewertung (P_A_LAND) und so weiter.
Jeder Eintrag in einer Zeile bezieht sich auf ein bestimmtes Grundstück. Jeder Eintrag in einer Spalte ist die gleiche Art von Informationen. Keine Zeilen oder Spalten sind aus Gründen des Stils und der Lesbarkeit leer. Diese Daten sind ordnungsgemäß organisiert, um Unterschiede zwischen den Grundstückspaketen zu untersuchen.
Wenn Sie anstelle von Immobilien Personen untersuchen, würde jede Person durch eine Zeile in den Daten repräsentiert und alle Details über die Personen würden in Spalten organisiert. Wenn Sie Brust-Röntgenstrahlen untersuchen, würde jede Röntgenaufnahme des Brustkorbs durch eine Zeile in den Daten dargestellt werden, und alle Details über die Brust-Röntgenstrahlen würden in Spalten organisiert sein.
In der Datenanalyse-Terminologie werden die Dinge, die Sie studieren - die Dinge in den Zeilen - Fälle oder Datensätze genannt. Und die Details darüber, die in den Spalten stehen, heißen Variablen . Sie werden auch die Spalten -Felder, vor allem im Kontext von Datenbanken hören.
Daher erfordert Data Mining Daten, die mit einer einzelnen Zeile für jeden Fall und einer einzelnen Spalte für jede Variable organisiert sind. Viele Datenquellen sind bereits auf diese Weise organisiert. Statistiker organisieren Daten auf diese Weise aus Gewohnheit. Datenbankprofis verwenden diesen Ansatz möglicherweise nicht für einen Großteil ihrer Arbeit, aber sie verstehen normalerweise, was Sie wollen, wenn Sie eine flache Tabelle nennen.
Sie finden subtile Variationen in der Datenstruktur. Einige Softwaretypen verwenden beschreibende Informationen in einem Header vor den Daten, z. B. bestimmte Spezialformate, die den Datamining-Anwendungen Orange und Weka zugeordnet sind. Einige komplexe analytische Verfahren haben zusätzliche oder leicht abweichende Anforderungen (diese sind ziemlich ungewöhnlich). Aber der Kern der Daten hat immer noch die Fälle in Zeilen und Variablen in Spalten.