Inhaltsverzeichnis:
Video: Boxplot erstellen, Median, unteres/oberes Quartil, Minimum, Maximum | Mathe by Daniel Jung 2024
Streudiagramme sind für die Datenwissenschaft besonders wichtig, da sie Datenmuster zeigen können, die auf andere Weise nicht offensichtlich sind. Sie können Datengruppierungen relativ einfach anzeigen und dem Benutzer helfen zu verstehen, wann Daten zu einer bestimmten Gruppe gehören. Sie können auch Überschneidungen zwischen Gruppen anzeigen und sogar zeigen, wenn bestimmte Daten außerhalb des erwarteten Bereichs liegen. Das Anzeigen dieser verschiedenen Arten von Beziehungen in den Daten ist eine fortgeschrittene Technik, die Sie kennen müssen, um MatPlotLib optimal nutzen zu können.
Darstellen von Gruppen
Farbe ist die dritte Achse bei der Arbeit mit einem Streudiagramm. Mithilfe von Farbe können Sie Gruppen hervorheben, damit andere sie leichter sehen können. Das folgende Beispiel zeigt, wie Sie mithilfe von Farbe Gruppen innerhalb eines Streudiagramms anzeigen können:
importiert numpy als np
import matplotlib. pyplot als plt
x1 = 5 * np. zufällig. rand (50)
x2 = 5 * np. zufällig. rand (50) + 25
x3 = 30 * np. zufällig. rand (25)
x = np. verketten ((x1, x2, x3))
y1 = 5 * np. zufällig. rand (50)
y2 = 5 * np. zufällig. rand (50) + 25
y3 = 30 * np. zufällig. rand (25)
y = np. verketten ((y1, y2, y3))
color_array = ['b'] * 50 + ['g'] * 50 + ['r'] * 25
plt. Streuung (x, y, s = [50], Marker = "D", c = Farbarray)
plt. show ()
In diesem Beispiel wird ein Array für die Farben verwendet. Die erste Gruppe ist jedoch blau, gefolgt von Grün für die zweite Gruppe. Alle Ausreißer erscheinen rot.
Farb-Arrays können die Streudiagramm-Gruppen besser hervorheben.Anzeigen von Korrelationen
In einigen Fällen müssen Sie die allgemeine Richtung kennen, die Ihre Daten beim Betrachten eines Streudiagramms einschlagen. Selbst wenn Sie eine klare Darstellung der Gruppen erstellen, ist die tatsächliche Richtung, die die Daten als Ganzes einnehmen, möglicherweise nicht klar. In diesem Fall fügen Sie der Ausgabe eine Trendlinie hinzu. Hier ein Beispiel für das Hinzufügen einer Trendlinie zu einem Streudiagramm, das Gruppen enthält.
importiere numpy als np
importiere matplotlib. pyplot als plt
importiert matplotlib. Pylab als plb
x1 = 15 * np. zufällig. rand (50)
x2 = 15 * np. zufällig. rand (50) + 15
x3 = 30 * np. zufällig. rand (30)
x = np. verketten ((x1, x2, x3))
y1 = 15 * np. zufällig. rand (50)
y2 = 15 * np. zufällig. rand (50) + 15
y3 = 30 * np. zufällig. rand (30)
y = np. verketten ((y1, y2, y3))
color_array = ['b'] * 50 + ['g'] * 50 + ['r'] * 25
plt. Streuung (x, y, s = [90], Marker = "*", c = Farbarray)
z = np. Polyfit (x, y, 1)
p = np. poly1d (z)
plb. Zeichnen (x, p (x), 'm -')
plt.show ()
Das Hinzufügen einer Trendlinie bedeutet, dass die Funktion NumPy
polyfit ()
mit den Daten aufgerufen wird, die einen Koeffizientenvektor
p
zurückgeben, der den Fehler der kleinsten Quadrate minimiert. Least-Square-Regression ist eine Methode zum Finden einer Linie, die die Beziehung zwischen zwei Variablen,
x
und
y
in diesem Fall, zumindest innerhalb der Domäne der erklärenden Variablen
x zusammenfasst.
. Der dritte Parameter
polyfit ()
drückt den Grad der Polynomanpassung aus.
Die Vektorausgabe von
polyfit ()
wird als Eingabe für
poly1d ()
verwendet, wodurch die tatsächlichen y-Achsen-Datenpunkte berechnet werden. Der Aufruf von
plot ()
erzeugt die Trendlinie im Streudiagramm.