Aufbereitung der Trainingsdaten

Vorschau

Voraussetzung für Diagnosen hinreichender Güte ist ein ausführliches Training des neuronalen Netzwerks mit hochwertigen Trainingsdaten. Damit alles reibungslos funktionieren kann muss die Struktur der Daten passen. Zu Beginn ist es notwendig dass Kategorien definiert werden, denen Messdaten zugeordnet werden sollen. Eine Kategorie beschreibt dabei eine bestimmtes Muster, welches entdeckt werden soll. Zur Veranschaulichung hilft folgendes Beispiel:

Wir untersuchen Getränke und wollen deren Kategorie bestimmen. Wir unterscheiden drei Kategorien:

  • eine zuckerhaltige Cola (Cola)
  • eine zuckerfreie Orangenlimonade (Limo)
  • einen naturtrüben Orangensaft (Saft)

Zur Charakterisierung werden die folgenden Messdaten erfasst:

  • Zuckergehalt in Prozent
  • Transmission in Prozent
  • Filtrierbarer Rückstand
  • Farbzahl (0-farblos, 1-gelb, 2-braun)

Strategie des vereinfachten Beispiels ist es, die Getränke anhand der charakteristischen Merkmale zu erkennen. Die Cola ist braun, zuckerhaltig, hat keine Feststoffanteile und eine höhere Transmission als ein trüber Saft. Eine Limo ist gelb, hat etwas weniger Zucker als Cola und eine höhere Transmission. Der Saft hat die geringste Transmission, am wenigsten Zucker von allen Getränken und ist gelb. Diese Muster werden trainiert und sollen anschließend erkannt werden.

Die zu erstellende Datei hat dann folgenden Aufbau:

Cola Limo Saft Zucker Transmission Rückstand Farbzahl
1 0 0 9.8 30 0 2
0 0 1 7.1 8 3 1
0 1 0 9.0 55 0 1

Als Format wird CSV verwendet, wobei CSV für den Begriff Comma Separated Value steht. Dabei werden die Spalten einer Tabelle durch Kommas getrennt. Wichtig ist, dass als Dezimaltrennzeichen ein Punkt verwendet wird, also z.B. 13.11 und nicht wie 13,11 mit einem Komma. Die CSV Datei wird dann als Text gespeichert und sieht dann wie folgt aus:

Cola, Limo, Saft, Zucker, Transmission, Rückstand, Farbzahl
1,0,0,9.8,30,0,2
0,0,1,7.1,8,3,1

Für jede zu diagnostizierende Kategorie sollten mindestens 50 Trainingssätze vorhanden sein, 40 davon dienen dem Training und mit 10 weiteren kann im Anschluss das neuronale Netzwerk getestet werden. Für unser Beispiel oben anbei werden also 150 Datensätze benötigt, wovon 30 zu Testzwecken genutzt werden.

Zurück zu: Machine Learning Diagnostik > 020 Training des neuronalen Netzwerks