Einrichtung von Kategorien

Vorschau

Mit Hilfe der Konfigurationsdatei von Kategorien können Muster in Satzbausteine überführt werden. Dabei werden die vorhergesagten Erkennungswahrscheinlichkeiten zuerst mit einem Schwellenwert versehen und im Anschluss der entsprechende Wortlaut formuliert.

Zur Erinnerung betrachten wir erneut die Tabelle, mit der das Modell trainiert wurde:

Cola Limo Saft Zucker Transmission Rückstand Farbzahl
1 0 0 9.8 30 0 2
0 0 1 7.1 8 3 1
0 1 0 9.0 55 0 1

Die Spalten der Tabelle, welche in hellblau dargestellt sind, entsprechen den trainierten Kategorien. Diese werden bei der Auswertung anschließend in entsprechende Erkennungswahrscheinlichkeiten überführt. Für die Konfiguration kann die integrierte Weboberfläche des Servers verwendet werden, welche unter https://server-ip-adresse/jupyter (z.B. https://172.16.199.3/jupyter) erreichbar ist. Es erscheint dann die folgende Anmeldeseite:

Bei Auslieferung ist der Benutzername koluma und das Passwort koluma. Nach erfolgreicher Anmeldung wird der Willkommensbildschirm von Jupyter Lab angezeigt, mit dem die Konfiguration von ANNA erfolgt.

Auf der linken Seite befinden sich die Ordner, mit deren Hilfe auf alle notwendigen Funktionen zugegriffen werden kann. Die Struktur entspricht den Erläuterungen in Kapitel Ordnerstruktur des Servers. Um die Kategorien zu konfigurieren muss in den Ordner /e1/config gewechselt werden. Dort befindet sich die Datei categories.csv, welche der Auswertung von Kategorien dient. Der Aufbau ist wie folgt:

# Control Limit|Text above limit|Text below limit
0|0.8|Es wurde eine Cola entdeckt.|Das Getränk ist keine Cola.
1|0.8|Es wurde eine Limo entdeckt.|Das Getränk ist keine Limo.
2|0.8|Es wurde ein Saft entdeckt.|Das Getränk ist kein Saft.

Die erste Zeile ist eine Kopfzeile, die zur Orientierung hilft. Die Spalten werden durch eine pipe getrennt, einem Strich von oben nach unten „|“. In der ersten Spalte ist die ID der Kategorie eingetragen. In unserem Fall hat die Kategorie „Cola“ die ID 0, die Limo die ID 1 und der Saft die ID 2. Die Nummerierung erfolgt also von 0 an aufsteigend.

In der zweiten Spalte wird die Entdeckungswahrscheinlichkeit eingetragen, gefolgt von dem Satzbaustein bei Entdeckung des Musters. In der letzten Spalte wird der Satzbaustein für ein nicht aufgefundenes Muster eingetragen.

Die korrekte Wahl der Wahrscheinlichkeit ist ausschlaggebend für den Erfolg einer passenden Diagnose. Zu geringe Schwellenwerte diagnostizieren einen Befund der nicht vorhanden ist, wobei zu hohe einen Befund ignorieren. Zur Wahl geeigneter Schwellenwerte dient die Datei prediction.csv.log, im Verzeichnis /e1/prediction. Diese Datei wird erstellt, sobald Daten durch das trainierte Modell vorhergesagt werden. Die Datei hat folgenden Aufbau:

0.99998647|0.00062030554|1.959838e-06
0.9999409|0.00033956766|2.0576972e-05
0.9999965|0.308874|5.9454475e-10
0.08000699|0.9999586|1.8368901e-06
0.047595263|0.9999685|2.9192063e-06
1.239597e-08|0.039961427|1.0

Es handelt sich um eine CSV Datei, bei der spaltenweise die Vorhersagewerte der Kategorien zu finden sind und zeilenweise die diagnostizierten Proben. In der ersten und den darauffolgenden Zeilen werden also die Wahrscheinlichkeiten für Cola, Limo und Saft hintereinander aufgeführt.

In den ersten drei Zeilen ist zu erkennen, dass das Muster Cola mit Werten von nahezu eins entdeckt wurde. In den letzten drei Zeilen ist eine Cola nicht gefunden worden und die Werte sind kleiner als 0.1.  Es macht also Sinn einen Schwellenwert, für die Erkennung einer „Cola“, im Bereich oberhalb von 0,85 zu wählen. Dadurch wird Cola hinreichend gut erkannt werden. Bei den anderen Mustern ist ein Abgleich mit dem selben Verfahren ebenfalls nützlich. Zur Überprüfung macht es Sinn auch gleichzeitig einen Blick auf die Messdaten der Vorhersage zu werfen, welche wie folgt aussehen:

ID,Zucker,Transmission,Rückstand,Farbzahl
SMP01,10.81567104,34.7438851,0.098281246,2
SMP02,10.67116472,32.38431942,0.019032113,2
SMP03,9.62558015,38.37176432,0.021491521,2
SMP14,8.259048364,61.54411371,0.49047264,1
SMP25,0.101950748,74.15291717,0.312854383,1
SMP36,6.573592287,16.67899829,5.456393377,1

Durch Vergleich der Messwerte, mit der Musterfindung aus der Vorhersage, gelingt eine Überprüfung der Validität des neuronalen Netzwerks. Wichtig ist die Prüfung auf Richtigkeit, also dem geschulten Blick ob Messwerte tatsächlich dem aufgefundenen Muster entsprechen. Es macht Sinn hierfür genügend Zeit für Tests und Überprüfungen zu investieren, denn nur so kann eine zuverlässige Diagnose sichergestellt werden.

Zurück zu: Machine Learning Diagnostik > 020 Konfiguration des Berichtswesens