Inhaltsverzeichnis:
Video: Die Windows 10 Datenträgerbereinigung zum Löschen unnötiger Dateien nutzen! Datenmüll entfernen! 2024
Wenn Sie Data Mining durchführen, haben Sie manchmal mehr Daten, als Sie für ein bestimmtes Projekt benötigen. Hier erfahren Sie, wie Sie sich auf das beschränken können, was Sie brauchen.
Eingrenzen der Felder
Wenn Sie viele Variablen in einem Datensatz haben, kann es schwierig sein, die für Sie interessanten zu finden oder zu sehen. Und wenn Ihre Datensätze groß sind und Sie nicht alle Variablen benötigen, werden die Ressourcen unnötig durch die Aufbewahrung der Extras eingespart. So müssen Sie manchmal einige Variablen behalten und andere fallen lassen. Die Abbildung zeigt ein Beispiel in KNIME, wo das richtige Werkzeug Column Filter heißt.
Eine Beispielkonfiguration für dieses Werkzeug wird in der folgenden Abbildung gezeigt.
Um die Felder einzugrenzen, suchen Sie in Ihrer Data-Mining-Anwendung nach einem Werkzeug für die Auswahl der Variablen. diese werden mit anderen Tools zur Datenmanipulation gefunden. Wie bei anderen Data-Mining-Tools variieren die Namen von Produkt zu Produkt. Suchen Sie nach Variationen der Wörter Spalte, Variable, oder Feld, und Auswahl oder Filterung.
Relevante Fälle auswählen
Fälle mit unvollständigen Daten können vor dem Erstellen des Modells herausgefiltert werden. Das Entfernen unvollständiger Fälle ist ein häufiges Beispiel für die Datenauswahl oder -Filterung.
Aber wie würden Sie nur die relevanten Fälle für jedes Segment auswählen, das Sie interessiert? Sie würden ein Datenauswahl-Tool verwenden.
Die folgende Abbildung zeigt ein Datenauswahlwerkzeug in einer anderen Data Mining-Anwendung.
Die nächste Abbildung zeigt, wie Sie dieses Werkzeug für eine andere Auswahlart einrichten würden, die auf dem Wert einer Variablen basiert.
Es ist üblich, diese Art der Datenauswahl zu verwenden, und einige Anwendungen bieten alle möglichen eingebauten Funktionen, um Ihnen zu helfen, genau die Fälle zu definieren, die Sie wollen. Dieser hat einige außergewöhnliche Merkmale; Es zeigt eine Übersichtsstatistik für die Variable an und teilt Ihnen genau mit, wie viele Fälle die Auswahlkriterien erfüllen.
Die meisten Data Mining-Anwendungen verfügen über Tools zur Auswahl nur der Fälle, die Sie benötigen. Suchen Sie in den Menüs (oder Suchen) nach , wählen Sie den Filter oder aus.
Sampling
Heutzutage ist eine gängige Vorstellung, dass mehr Daten bessere Daten sind. Das ist keine neue Idee. Data Mining-Anwendungen wurden schon immer entwickelt, um mit großen Datenmengen zu arbeiten. Schon der Name "Data Mining" lässt auf große Mengen schließen. Aber oft wird Ihnen die Arbeit mit einer Stichprobe Ihrer Daten Informationen liefern, die genauso nützlich sind, Ihre Arbeit erleichtern und Zeit und Ressourcen sparen.
Das Sampling spielt beim Data Mining eine wichtige Rolle. Wenn die Daten ausgeglichen sind, bedeutet das, dass das Modell gleiche Zahlen von Fällen in jeder der verglichenen Gruppen verwendet (in diesem Beispiel waren die Gruppen Eigenschaften, die den Besitzer wechselten, und Eigenschaften, die dies nicht taten), obwohl eine Gruppe viel mehr Fälle aufwies als andere in den ursprünglichen Daten.
Später wurden die Daten geteilt und in eine Teilmenge aufgeteilt, die zum Trainieren eines Modells und eine andere zum Testen verwendet wurde. Wenn Sie nur ein Muster von Daten in einem parallelen Koordinatenplot verwenden, kann es einfacher angezeigt und interpretiert werden. (Scatterplots mit Tausenden von Punkten können unmöglich schwer zu lesen sein!) Vielleicht am wichtigsten ist, dass das Sampling lediglich die Datenmenge reduziert, sodass die Dinge schneller laufen.