Video: Künstliche Intelligenz, Maschinelles Lernen - Entstehung, Forschungsstand & Ausblick 2024
Teil von Machine Learning For Dummies Cheat Sheet < Beim maschinellen Lernen werden viele verschiedene Algorithmen verwendet. Diese Tabelle gibt Ihnen einen schnellen Überblick über die Stärken und Schwächen verschiedener Algorithmen.
Algorithmus
Best in | Pros | Cons | Zufälliger Wald |
Geeignet für fast jedes maschinelle Lernproblem | Bioinformatik
Kann parallel arbeiten |
Seltene Überfits > Bearbeite fehlende Werte automatisch
Keine Notwendigkeit zur Transformation einer Variablen Keine Notwendigkeit zur Optimierung von Parametern Kann von fast jedem mit ausgezeichneten Ergebnissen verwendet werden Schwer zu interpretieren Schwächer bei Regression bei der Schätzung von Werten bei die Extremitäten der Verteilung der Response-Werte |
Biased in Multiclass-Problemen zu häufigeren Klassen
Gradient Boosting Apt bei fast jedem Machine Learning Problem |
Search Engines (das Problem des Lernens zu Ranking zu lösen) > Kann die meisten nichtlinearen Funktionen approximieren | Klassenbeste Prädiktor
Bearbeitet fehlende Werte automatisch |
Es muss keine Variable transformiert werden
Kann zu viele Iterationen ausführen Sensibel zu verrauschten Daten und Ausreißer Funktioniert nicht ohne Parameterabstimmung |
Lineare Regression
Baseline predic Ökonometrische Vorhersagen |
Modellierung von Marketingantworten | Einfach zu verstehen und zu erklären
Es überfüllt selten Die Verwendung von L1 & L2 Regularisierung ist bei der Feature-Auswahl effektiv |
Schnell trainieren
Einfach zu Trainieren Sie mit Big Data dank seiner stochastischen Version Sie müssen hart arbeiten, um nichtlineare Funktionen anpassen zu können Kann unter Ausreißern leiden Support Vector Machines |
Zeichenerkennung
Bilderkennung |
Text Klassifikation | Automatische nichtlineare Merkmalserstellung
Kann komplexe nichtlineare Funktionen approximieren Bei nichtlinearen Kerneln schwer zu interpretieren |
Leidet an zu vielen Beispielen, nach 10 000 Beispielen dauert es zu lange um zu trainieren
K-nächstgelegene Nachbarn |
Computer Vision
Multilabel-Tagging |
Empfehlungssysteme | Probleme bei der Rechtschreibprüfung
Schnelles, faules Training Kann natürlich extreme Multiklassenprobleme bewältigen (wie Text markieren) Langsam und schwerfällig in der Vorhersagephase |
Kann nicht korrelieren vorhersagen ectly aufgrund des Fluchs der Dimensionalität
Adaboost |
Gesichtserkennung
verarbeitet fehlende Werte automatisch |
keine Veränderung der Variablen nötig | sie passt nicht leicht | wenige Parameter zum Tweak > Es kann viele verschiedene schwache Lernende wirksam einsetzen
Empfindlich gegen verrauschte Daten und Ausreißer Niemals die besten Vorhersagen in der Klasse Naive Bayes Gesichtserkennung |
Sentimentanalyse
Spamerkennung |
Textklassifizierung | Einfach und schnell zu implementieren, erfordert nicht zu viel Speicher und kann für Online-Lernen verwendet werden
Leicht verständlich Berücksichtigt Vorkenntnisse Starke und unrealistische Merkmalsunabhängigkeit > Scheitert an der Schätzung seltener Ereignisse |
Leidet an irrelevanten Merkmalen
Neuronale Netze Bilderkennung |
Spracherkennung und Übersetzung
Spracherkennung Sichterkennung |
Kann jede nichtlineare Funktion approximieren | Robust gegen Ausreißer
Funktioniert nur mit einem Teil der Beispiele (der Unterstützungsvektor s) Sehr schwer einzurichten Aufgrund zu vieler Parameter ist es schwierig, die Architektur zu optimieren. Außerdem muss die Architektur des Netzwerks festgelegt werden. |
Schwer zu interpretieren
Einfach zu überholen Logistische Regression < Ergebnisse nach der Wahrscheinlichkeit sortieren |
Modellierung von Marketingantworten
Einfach zu verstehen und zu erklären Es überfüllt selten Die L1- und L2-Regularisierung ist bei der Feature-Auswahl effektiv |
Der beste Algorithmus zur Vorhersage der Wahrscheinlichkeiten eines event | Schnell trainieren
Dank der stochastischen Version ist es einfach, auf Big Data zu trainieren |
Man muss hart arbeiten, um nichtlineare Funktionen zu erfüllen
Kann an Ausreißern leiden SVD Recommender Systeme können Daten auf sinnvolle Weise umstrukturieren schwer zu verstehen, warum Daten in einer bestimmten Weise umstrukturiert wurden |
PCA
Kollinearität entfernen |
Dimensionen des Datensatzes reduzieren | kann Datendimensionalität reduzieren | Enthält starke lineare Annahmen (Komponenten sind gewichtete Summierungen von Merkmalen) K-means | Segmentation |
Schnelle Suche nach Clustern | Kann Ausreißer in mehreren Dimensionen erkennen
Leidet an Multikollinearität |
Cluster sind kugelförmig, können keine Gruppen anderer Form erkennen | Instabil Lösungen, hängt von der Initialisierung |
|