Video: Blick in die Labore - Künstliche Intelligenz in der Medienanalyse, Medizin, Robotik und Produktion 2024
In einer perfekten Welt könnten Sie einen Test an Daten durchführen, von dem Ihr Maschinenlernalgorithmus zuvor noch nie gelernt hat. Das Warten auf neue Daten ist jedoch nicht immer zeit- und kostensparend.
Als erstes einfaches Hilfsmittel können Sie Ihre Daten nach dem Zufallsprinzip in Trainings- und Testsets aufteilen. Der gemeinsame Split beträgt 25 bis 30 Prozent für die Tests und die restlichen 75 bis 70 Prozent für das Training. Sie teilen Ihre Daten, die aus Ihrer Antwort und Ihren Funktionen bestehen, gleichzeitig auf und halten die Korrespondenz zwischen den einzelnen Antworten und ihren Funktionen aufrecht.
Das zweite Mittel tritt auf, wenn Sie Ihren Lernalgorithmus optimieren müssen. In diesem Fall sind die Testaufteilungsdaten keine gute Methode, da sie eine andere Art von Überanpassung verursachen, die Snooping genannt wird. Um das Snooping zu überwinden, benötigen Sie eine dritte Aufteilung, die als Validierungssatz bezeichnet wird. Eine vorgeschlagene Aufteilung besteht darin, Ihre Beispiele in Terzen zu unterteilen: 70 Prozent für das Training, 20 Prozent für die Validierung und 10 Prozent für das Testen.
Sie sollten die Aufteilung nach dem Zufallsprinzip durchführen, dh unabhängig von der anfänglichen Reihenfolge der Daten. Andernfalls ist Ihr Test nicht zuverlässig, da eine Sortierung eine Überschätzung (wenn es eine sinnvolle Reihenfolge gibt) oder eine Unterschätzung (wenn die Verteilung zu stark abweicht) verursachen könnte. Als Lösung müssen Sie sicherstellen, dass sich die Testsatzverteilung nicht sehr von der Schulungsverteilung unterscheidet und dass in den geteilten Daten eine sequenzielle Reihenfolge auftritt.
Prüfen Sie zum Beispiel, ob die Identifikationsnummern, sofern verfügbar, in Ihren Sets fortlaufend sind. Manchmal, auch wenn Sie sich streng an zufällige Stichproben halten, können Sie nicht immer ähnliche Verteilungen zwischen Sätzen erzielen, besonders wenn Ihre Anzahl von Beispielen klein ist.
Wenn die Anzahl der Beispiele n hoch ist, z. B. n> 10 000, können Sie ganz sicher einen zufällig geteilten Datensatz erstellen. Wenn der Datensatz kleiner ist, können Sie anhand von Basisstatistiken wie Mittelwert, Modus, Median und Varianz über die Antwort und die Features in den Trainings- und Testsätzen nachvollziehen, ob der Testsatz ungeeignet ist. Wenn Sie nicht sicher sind, ob die Aufteilung richtig ist, müssen Sie nur eine neue berechnen.