Video: Daten können im Netz nie ganz sicher sein: 3sat Nano, 03.12.2009 2024
Wenn Sie mit Big Data-Statistiken arbeiten, identifizieren Sie die Verteilung eines Datensatzes aus dem Zentrum mit mehreren verschiedenen Zusammenfassungswerten: Varianz, Standard Abweichung, Quartile, Interquartilbereich (IQR).
Varianz ist die durchschnittliche quadratische Abweichung zwischen den Elementen des Datensatzes und dem Mittelwert. Für eine Datenprobe wird die Varianz wie folgt berechnet:
wobei
-
x i der Wert eines einzelnen Elements in der Stichprobe ist.
-
ist das Stichprobenmittel.
-
n ist die Stichprobengröße.
Die Standardabweichung ist die Quadratwurzel der Varianz. Für die meisten Anwendungen ist die Standardabweichung bequemer zu verwenden als die Varianz als Maß für die Streuung. Das liegt daran, dass die Varianz in quadrierten Einheiten gemessen wird, während die Standardabweichung in den gleichen Einheiten wie die Daten gemessen wird. Zum Beispiel würde die Varianz eines Datensatzes, der aus Preisen besteht, in Dollar im Quadrat gemessen, und die Standardabweichung würde in Dollar gemessen. Die Standardabweichung ist das am häufigsten verwendete Maß für die Streuung in einem Datensatz.
Quartile teilen einen Datensatz in vier gleiche Teile auf. Das erste Quartil (Q 1 ) teilt die Daten in die niedrigsten 25 Prozent der Beobachtungen und die höchsten 75 Prozent (25 Prozent der Beobachtungen sind kleiner als Q 1 <, und 75 Prozent sind größer als Q 1 . Das zweite Quartil (Q 2 ) unterteilt die Daten in die niedrigsten 50 Prozent der Beobachtungen und die höchsten 50 Prozent. Das dritte Quartil (Q 3 ) unterteilt die Daten in die niedrigsten 75 Prozent der Beobachtungen und die höchsten 25 Prozent. Der Interquartilsabstand (IQR) ist gleich dem Unterschied zwischen dem dritten und ersten Quartil:
Die Quartile eines Datensatzes werden am besten mit einem
Boxplot dargestellt. Die folgende Abbildung zeigt ein Boxdiagramm der täglichen Renditen für ExxonMobil im Jahr 2013. Boxdiagramm der täglichen Renditen für ExxonMobil-Aktien im Jahr 2013.
Das Boxdiagramm zeigt mehrere wichtige Statistiken für die ExxonMobil-Renditen: > Die minimale Rendite wird in einem Diagramm als einzelner Punkt unten im Diagramm angezeigt (ein Boxdiagramm zeigtAusreißer
als einzelne Punkte). Q 1 ist unten in der Box, Q 2 ist die schwarze Linie in der Mitte der Box, und Q 3 ist die Spitze von die Kiste. Die maximale Rendite wird als einzelner Punkt oben im Diagramm angezeigt.