Video: 416 Conectar Excel con Excel Consulta SQL Rango Fechas con Datos Otro Libro 2024
Die Interaktion mit Daten aus einer einzigen Quelle ist ein Problem. Die Interaktion mit Daten aus verschiedenen Quellen ist etwas ganz anderes. Allerdings stammen Datensätze heutzutage in der Regel aus mehr als einer Quelle, daher müssen Sie verstehen, welche Komplikationen die Verwendung mehrerer Datenquellen verursachen kann. Wenn Sie mit mehreren Datenquellen arbeiten, müssen Sie Folgendes tun:
- Legen Sie fest, ob beide Datensätze alle erforderlichen Daten enthalten. Es ist unwahrscheinlich, dass zwei Designer Datensätze erstellen, die exakt die gleichen Daten desselben Typs und in derselben Reihenfolge im gleichen Format enthalten. Daher müssen Sie überlegen, ob die Datensätze die Daten liefern, die Sie benötigen, oder ob Sie die Daten auf irgendeine Weise korrigieren müssen, um das gewünschte Ergebnis zu erzielen.
- Überprüfen Sie beide Datasets auf Datentypprobleme. Ein Datensatz kann Datumsangaben als Zeichenketten und ein anderer Datumsbereich als tatsächliche Datumsobjekte enthalten. Inkonsistenzen zwischen Datentypen verursachen Probleme für einen Algorithmus, der Daten in einer Form erwartet und in einer anderen Form erhält.
- Stellen Sie sicher, dass alle Datensätze die gleiche Bedeutung für Datenelemente haben. Daten, die von einer Quelle erstellt werden, können eine andere Bedeutung haben als Daten, die von einer anderen Quelle erstellt wurden. Beispielsweise kann die Größe einer ganzen Zahl über mehrere Quellen hinweg variieren, sodass Sie möglicherweise eine 16-Bit-Ganzzahl aus einer Quelle und eine 32-Bit-Ganzzahl aus einer anderen Quelle sehen. Niedrigere Werte haben die gleiche Bedeutung, aber die 32-Bit-Ganzzahl kann größere Werte enthalten, was Probleme mit dem Algorithmus verursachen kann. Datumsangaben können ebenfalls Probleme verursachen, da sie sich oft darauf verlassen, dass seit einem bestimmten Datum so viele Millisekunden gespeichert wurden (wie z. B. JavaScript, das die Anzahl der Millisekunden seit dem 1. Januar 1970 UTC speichert). Der Computer sieht nur Zahlen; Menschen geben diesen Zahlen eine Bedeutung, so dass Anwendungen sie auf bestimmte Weise interpretieren.
- Überprüfen Sie die Datenattribute. Datenelemente haben bestimmte Attribute. Diese Interpretation kann sich ändern, wenn
numpy
verwendet wird. In der Tat stellen Sie fest, dass sich Datenattribute zwischen Umgebungen ändern, und Entwickler können diese noch stärker ändern, indem Sie benutzerdefinierte Datentypen erstellen. Um Daten aus verschiedenen Quellen zu kombinieren, müssen Sie diese Attribute verstehen, um sicherzustellen, dass Sie die Daten richtig interpretieren.
Je mehr Zeit Sie für die Überprüfung der Kompatibilität von Daten aus jeder der Quellen verwenden, die Sie für ein Dataset verwenden möchten, desto seltener treten Probleme bei der Arbeit mit einem Algorithmus auf. Dateninkompatibilitätsprobleme treten nicht immer als direkte Fehler auf. In einigen Fällen kann eine Inkompatibilität andere Probleme verursachen, z. B. fehlerhafte Ergebnisse, die zwar korrekt aussehen, jedoch irreführende Informationen liefern.
Das Kombinieren von Daten aus mehreren Quellen bedeutet möglicherweise nicht immer das Erstellen eines neuen Datasets, das genauso wie die Quelldatensätze aussieht. In einigen Fällen erstellen Sie Datenaggregate oder führen andere Manipulationen aus, um neue Daten aus den vorhandenen Daten zu erstellen. Die Analyse nimmt alle möglichen Formen an, und einige der exotischeren Formen können bei falscher Verwendung schreckliche Fehler erzeugen. Zum Beispiel könnte eine Datenquelle allgemeine Kundeninformationen bereitstellen, und eine zweite Datenquelle könnte Kundenkaufgewohnheiten bereitstellen. Unstimmigkeiten zwischen den beiden Quellen können Kunden mit falschen Kaufgewohnheitsinformationen begegnen und Probleme verursachen, wenn Sie versuchen, neue Produkte für diese Kunden zu vermarkten. Betrachten Sie als extremes Beispiel, was passieren würde, wenn Sie Patienteninformationen aus verschiedenen Quellen kombinieren und kombinierte Patienteneinträge in einer neuen Datenquelle mit allen möglichen Nichtübereinstimmungen erstellen. Ein Patient ohne Vorgeschichte einer bestimmten Krankheit könnte mit Aufzeichnungen über die Diagnose und Behandlung der Krankheit enden.