Auswahl des richtigen Algorithmus für maschinelles Lernen - Dummies

Teil von Machine Learning For Dummies Cheat Sheet < Beim maschinellen Lernen werden viele verschiedene Algorithmen verwendet. Diese Tabelle gibt Ihnen einen schnellen Überblick über die Stärken und Schwächen verschiedener Algorithmen.

Algorithmus

Best in

Pros

Cons

Zufälliger Wald

Geeignet für fast jedes maschinelle Lernproblem

Bioinformatik

Kann parallel arbeiten

Seltene Überfits > Bearbeite fehlende Werte automatisch

Keine Notwendigkeit zur Transformation einer Variablen

Keine Notwendigkeit zur Optimierung von Parametern

Kann von fast jedem mit ausgezeichneten Ergebnissen verwendet werden

Schwer zu interpretieren

Schwächer bei Regression bei der Schätzung von Werten bei die Extremitäten der Verteilung der Response-Werte

Biased in Multiclass-Problemen zu häufigeren Klassen

Gradient Boosting

Apt bei fast jedem Machine Learning Problem

Search Engines (das Problem des Lernens zu Ranking zu lösen) > Kann die meisten nichtlinearen Funktionen approximieren

Klassenbeste Prädiktor

Bearbeitet fehlende Werte automatisch

Es muss keine Variable transformiert werden

Kann zu viele Iterationen ausführen

Sensibel zu verrauschten Daten und Ausreißer

Funktioniert nicht ohne Parameterabstimmung

Lineare Regression

Baseline predic

Ökonometrische Vorhersagen

Modellierung von Marketingantworten

Einfach zu verstehen und zu erklären

Es überfüllt selten

Die Verwendung von L1 & L2 Regularisierung ist bei der Feature-Auswahl effektiv

Schnell trainieren

Einfach zu Trainieren Sie mit Big Data dank seiner stochastischen Version

Sie müssen hart arbeiten, um nichtlineare Funktionen anpassen zu können

Kann unter Ausreißern leiden

Support Vector Machines

Zeichenerkennung

Bilderkennung

Text Klassifikation

Automatische nichtlineare Merkmalserstellung

Kann komplexe nichtlineare Funktionen approximieren

Bei nichtlinearen Kerneln schwer zu interpretieren

Leidet an zu vielen Beispielen, nach 10 000 Beispielen dauert es zu lange um zu trainieren

K-nächstgelegene Nachbarn

Computer Vision

Multilabel-Tagging

Empfehlungssysteme

Probleme bei der Rechtschreibprüfung

Schnelles, faules Training

Kann natürlich extreme Multiklassenprobleme bewältigen (wie Text markieren)

Langsam und schwerfällig in der Vorhersagephase

Kann nicht korrelieren vorhersagen ectly aufgrund des Fluchs der Dimensionalität

Adaboost

Gesichtserkennung

verarbeitet fehlende Werte automatisch

keine Veränderung der Variablen nötig

sie passt nicht leicht

wenige Parameter zum Tweak > Es kann viele verschiedene schwache Lernende wirksam einsetzen

Empfindlich gegen verrauschte Daten und Ausreißer

Niemals die besten Vorhersagen in der Klasse

Naive Bayes

Gesichtserkennung

Sentimentanalyse

Spamerkennung

Textklassifizierung

Einfach und schnell zu implementieren, erfordert nicht zu viel Speicher und kann für Online-Lernen verwendet werden

Leicht verständlich

Berücksichtigt Vorkenntnisse

Starke und unrealistische Merkmalsunabhängigkeit > Scheitert an der Schätzung seltener Ereignisse

Leidet an irrelevanten Merkmalen

Neuronale Netze

Bilderkennung

Spracherkennung und Übersetzung

Spracherkennung

Sichterkennung

Kann jede nichtlineare Funktion approximieren

Robust gegen Ausreißer

Funktioniert nur mit einem Teil der Beispiele (der Unterstützungsvektor s)

Sehr schwer einzurichten

Aufgrund zu vieler Parameter ist es schwierig, die Architektur zu optimieren. Außerdem muss die Architektur des Netzwerks festgelegt werden.

Schwer zu interpretieren

Einfach zu überholen

Logistische Regression < Ergebnisse nach der Wahrscheinlichkeit sortieren

Modellierung von Marketingantworten

Einfach zu verstehen und zu erklären

Es überfüllt selten

Die L1- und L2-Regularisierung ist bei der Feature-Auswahl effektiv

Der beste Algorithmus zur Vorhersage der Wahrscheinlichkeiten eines event

Schnell trainieren

Dank der stochastischen Version ist es einfach, auf Big Data zu trainieren

Man muss hart arbeiten, um nichtlineare Funktionen zu erfüllen

Kann an Ausreißern leiden

SVD

Recommender Systeme

können Daten auf sinnvolle Weise umstrukturieren

schwer zu verstehen, warum Daten in einer bestimmten Weise umstrukturiert wurden

PCA

Kollinearität entfernen

Dimensionen des Datensatzes reduzieren

kann Datendimensionalität reduzieren

Enthält starke lineare Annahmen (Komponenten sind gewichtete Summierungen von Merkmalen) K-means

Segmentation

Schnelle Suche nach Clustern

Kann Ausreißer in mehreren Dimensionen erkennen

Leidet an Multikollinearität

Cluster sind kugelförmig, können keine Gruppen anderer Form erkennen

Instabil Lösungen, hängt von der Initialisierung

Auswahl des richtigen Algorithmus für maschinelles Lernen - Dummies

Auswahl des richtigen Algorithmus für maschinelles Lernen - Dummies

Video: Künstliche Intelligenz, Maschinelles Lernen - Entstehung, Forschungsstand & Ausblick 2025

Die Wahl des Herausgebers

Web Marketing: Warum Suchmaschinen existieren - Dummies

Was sind Tür- und Informationsseiten? - dummies

Was ist eine Weiterleitung bei der Suchmaschinenoptimierung? - Dummies

Die Wahl des Herausgebers

Behandeln Probleme mit dem Kundenservice über Social Media - Dummies

Acht Möglichkeiten, Social Media Feedback zu erhalten - Dummies

Manage Social Media Commerce mit HootSuite - dummies

Die Wahl des Herausgebers

Die 5 Kornsterne der Mittelmeer - Dummies

Strebe nach Gesundheit mit 7 bis 10 Portionen Obst und Gemüse - Schnuller

Die gesundheitlichen Vorteile von mediterranen Kräutern und Gewürzen - Dummies

Die Wahl des Herausgebers

Organisieren Ihrer digitalen Fotos in Ihrer Bildbearbeitungssoftware - Dummies

5 Schritte zur Fehlerbehebung in Photoshop Lightroom - Dummies

Zugriff auf die Photoshop CS6-Werkzeugpalette über Verknüpfungen - Dummies

Tastaturkürzel für tägliche Aktivitäten in Photoshop 6 - Dummies

Die Wahl des Herausgebers

Wie Sie eine Spotify-Playlist an ShareMyPlay-Listen senden. com - dummies

So synchronisieren Sie lokale Spotify-Tracks über WLAN - Dummies

Wie man Spotify Tracks mit Sternen - dummies

Abonnieren von Playlists von Spotify - dummies

Beliebte Kategorien