Datenaufbereitung

Vorschau

Maschinelles Lernen erfordert eine große Menge an Daten, um neuronale Netze zu trainieren und ausreichende Lernergebnisse zu erzielen. Die Trainingsdaten werden in drei unterschiedliche Sets aufgeteilt wie folgt:

  • Trainingsset – Das sind die Lernbeispiele, die für den eigentlichen Lernvorgang eingesetzt werden. Durch die iterative Einspeisung der Datensätze aus dem Trainingsset werden die Gewichtungen angepasst. Anschließend entsteht ein Modell, das nun mit den behaltenen Daten getestet und validiert wird.
  • Validierungsset – Das Validierungsset soll dem Problem einer möglichen Überanpassung (Overfitting) entgegenwirken. Hierzu wird ein Teil der Daten des Trainingssets für die Validierung zurückgehalten. Die Validierungsdaten werden zur Justierung der sogenannten Hyperparameter des Lernalgorithmus verwendet. Diese Variablen bestimmen wie das Netzwerk aufgebaut ist. Das Validierungsset wird ebenfalls beim training eingesetzt, um dem Overfitting dadurch entgegenzuwirken, dass das Training frühzeitig abgebrochen wird, wenn der Fehler auf den Validierungsdaten nicht weiter abnimmt. Dieses Vorgehen nennt man Early Stopping.
  • Statt ein explizites Validierungsset zu verwenden, kann auch wie bei klassischen Machine-Learning-Ansätzen eine Kreuzvalidierung (cross validation) vorgenommen werden.
  • Testset (machmal auch Evaluierungsset genannt) – Ist das Modell vollständig trainiert, wird das Dataset verwendet, um die Präzision des Modells zu berechnen.

Beim Deep Learning arbeitet man mit einem Verhältnis von 4:1, mit 80% der Daten wird das Training durchgeführt (inkl. Validierung) und 20% der Daten für das anschließende Testen. Wichtig ist, dass die Daten balanciert sind, die Daten also Vergleichstest gewährleisten. Die Min-Max-Werte müssen als für alle Gruppen von Daten gleich sein. Bei fehlenden Daten können die Datensätze mit fehlenden Daten gelöscht werden oder Verfahren der Interpolation angewendet werden. Die Daten aus dem Testset sollten nie Teil des Trainings sein.

Overfitting und Underfitting

Ein gefürchtetes Phänomen beim Deep Learning ist das Overfitting oder Underfitting. Die Güte eines gelernten Modells hängt von der Generalisierung ab. Nach dem Training muss das Netzwerk in der Lage sein, noch nie gesehene Muster möglichst korrekt zu erkennen. Wenn das gelernte Modell aber Daten zu hoher Präzision zum Lernen erhalten hat, ist unter Umständen die Wiederfindung schlecht. Hierbei spricht man vom Overfitting. Es hat die Daten sozusagen nur auswendig gelernt.

Zurück zu: Machine Learning Diagnostik > 020 Grundlagen