Inhaltsverzeichnis:
- Zugriff auf wissenschaftliche Werkzeuge mit SciPy
- Grundlegendes wissenschaftliches Rechnen mit NumPy
- Durchführung der Datenanalyse mit Pandas
- Das maschinelle Lernen mit Scikit-learn
- Plotten der Daten mit matplotlib
- Parsen von HTML-Dokumenten mit Beautiful Soup
Video: Python for Math., Science & Engineering – Claus Aichinger – Grazer Linuxtage 2017 2024
Sie müssen Bibliotheken laden, um Data Science-Aufgaben in Python ausführen zu können. Hier finden Sie eine Übersicht über die Bibliotheken, die Sie für die Datenwissenschaft verwenden können. Diese Bibliotheken können für den Datenwissenschaftler mehrere Funktionen ausführen.
Zugriff auf wissenschaftliche Werkzeuge mit SciPy
Der SciPy-Stapel enthält eine Reihe anderer Bibliotheken, die Sie auch separat herunterladen können. Diese Bibliotheken bieten Unterstützung für Mathematik, Wissenschaft und Technik. Wenn Sie SciPy erhalten, erhalten Sie eine Reihe von Bibliotheken, die zusammenarbeiten, um Anwendungen verschiedener Art zu erstellen. Diese Bibliotheken sind
-
NumPy
-
SciPy
-
matplotlib
-
IPython
-
Symppy
-
pandas
Die SciPy-Bibliothek selbst konzentriert sich auf numerische Routinen wie Routinen zur numerischen Integration und Optimierung.. SciPy ist eine Universalbibliothek, die Funktionen für mehrere Problemdomänen bereitstellt. Es unterstützt auch domänenspezifische Bibliotheken wie Scikit-learn, Scikit-image und statsmodels.
Grundlegendes wissenschaftliches Rechnen mit NumPy
Die NumPy-Bibliothek bietet die Möglichkeit, n-dimensionale Array-Manipulationen durchzuführen, was für die datenwissenschaftliche Arbeit von entscheidender Bedeutung ist. Ohne NumPy-Funktionen, die Unterstützung für lineare Algebra, Fourier-Transformation und Zufallszahlengenerierung enthalten, können Sie nicht ohne weiteres auf n-dimensionale Arrays zugreifen.
Durchführung der Datenanalyse mit Pandas
Die Pandas-Bibliothek bietet Unterstützung für Datenstrukturen und Datenanalyse-Tools. Die Bibliothek ist optimiert, um Aufgaben der Datenwissenschaft besonders schnell und effizient durchzuführen. Das Grundprinzip hinter Pandas ist die Unterstützung der Datenanalyse und -modellierung für Python, die anderen Sprachen ähnelt, zB R.
Das maschinelle Lernen mit Scikit-learn
implementieren Die Scikit-learn-Bibliothek ist eine von vielen Scikit-Bibliotheken, die auf den Funktionen von NumPy und SciPy aufbauen, um Python-Entwicklern domänenspezifische Aufgaben zu ermöglichen. In diesem Fall konzentriert sich die Bibliothek auf Data Mining und Datenanalyse. Es bietet Zugriff auf die folgenden Arten von Funktionen:
-
Klassifizierung
-
Regression
-
Clustering
-
Dimensionalitätsreduktion
-
Modellauswahl
-
Vorverarbeitung
Plotten der Daten mit matplotlib
Die matplotlib-Bibliothek bietet Ihnen eine MATLAB-ähnliche Oberfläche zum Erstellen von Datenpräsentationen der von Ihnen durchgeführten Analyse. Die Bibliothek ist derzeit auf die 2D-Ausgabe beschränkt, bietet aber dennoch die Möglichkeit, die Datenmuster grafisch auszudrücken, die Sie in den von Ihnen analysierten Daten sehen.Ohne diese Bibliothek könnten Sie keine Ergebnisse erstellen, die von Personen außerhalb der Data Science-Community leicht verstanden werden könnten.
Parsen von HTML-Dokumenten mit Beautiful Soup
Der Download der Beautiful Soup Library findet sich tatsächlich auf der Python-Website. Diese Bibliothek bietet die Möglichkeit, HTML- oder XML-Daten auf eine Weise zu analysieren, die Python versteht. Sie können mit baumbasierten Daten arbeiten.
Neben der Möglichkeit, mit baumbasierten Daten zu arbeiten, benötigt Beautiful Soup viel Arbeit bei der Arbeit mit HTML-Dokumenten. Zum Beispiel konvertiert es automatisch die Codierung (die Art und Weise, wie Zeichen in einem Dokument gespeichert werden) von HTML-Dokumenten von UTF-8 nach Unicode. Ein Python-Entwickler müsste sich normalerweise Gedanken über Dinge wie das Encoding machen, aber mit Beautiful Soup können Sie sich stattdessen auf Ihren Code konzentrieren.