Strategien zur Verarbeitung von Messdaten

Vorschau

Anhand des Beispiels, der Untersuchung von Getränken, wurde auf die prinzipielle Aufarbeitung und Verwendung von Daten eingegangen. Selbstverständlich sind auch komplexere Szenarien denkbar. Im Folgenden sollen beispielhaft Konzepte diskutiert werden.

Grundsätzliches

Im Allgemeinen werden Daten ANNA über eine Schnittstelle von einem Labor Informations- und Managementsystem (LIMS) übergeben. Die Datenbeschaffung erfolgt also durch das LIMS, dabei werden die zu diagnostizierenden Analysenergebnisse als CSV Datei bei ANNA abgelegt. Der Beschaffung von Daten sind auf diesem Weg keine Grenzen gesetzt, da eine SQL Abfrage in der Lage ist eine Vielzahl von Daten zu kombinieren.

Diagnose von historischen Daten

Als historische Daten werden Messungen bezeichnet, die zu unterschiedlichen Zeitpunkten erfolgt sind und als zeitliche Abfolge darstellbar sind. Nehmen wir zum Beispiel an, dass für eine Limo überprüft werden soll ob sich der Zucker absetzt. Zu diesem Zweck wird das Gebinde bewegungsfrei gelagert und die Probenahme erfolgt vom oberen Teil der Flüssigkeit. Dabei werden im Abstand von 4 Wochen insgesamt 3 Proben genommen. Diese sollen ANNA zur Diagnose übergeben werden. Darüber hinaus sollen auch Proben, bei denen diese Daten nicht vorhanden sind, ebenfalls diagnostizierbar bleiben. Keine einfache Aufgabe, aber lassen wir uns davon nicht abschrecken und lösen die Problemstellung schrittweise.

Als erstes erstellen wir ein geeignetes Modell, welches in etwa wie folgt aussehen könnte:

Cola Limo Saft Zucker,KW0 Zucker,KW4 Zucker,KW8 Transmission Rückstand Farbzahl
1 0 0 9.8 9.2 8.2 30 0 2
0 0 1 7.1 6.8 6.5 8 3 1
0 1 0 9.0 9.0 9.0 55 0 1

In diesem Fall wurde die Tabelle durch die Zuckergehalte nach vier und acht Wochen erweitert. In den ersten beiden Zeilen ist auch direkt erkennbar, dass die Zuckergehalte abnehmen. Ein solches Verhalten läßt sich sehr gut in ANNA erkennen. In der dritten Zeile sind alle Zuckergehalte gleich geblieben und genau hier ist bereits einwichtiges Prinzip der Datenaufbereitung erkennbar. Wenn immer es Ziel ist, eine Erkennung zu vermeiden, ist es sinnvoll die historischen Daten durch Kopie eines Werts zu ersetzen. Nehmen wir an, dass nur die Messung bei KW0 vorhanden ist, dann werden KW8 und KW12 durch den Wert aus KW0 belegt. ANNA muss also so trainiert werden, dass gleiche Werte eben keine Muster sind die erkannt werden sollen. Selbstverständlich sich auch mehrere solcher Historien denkbar, die Datenbeschaffung und -aufarbeitung ist lediglich ausschlaggebend.

Synthetische Trainingsdaten

Als synthetische Trainingsdaten werden Datensätze verstanden, welche künstlich erzeugt wurden und nicht einer Messung entstammen. Synthetische Daten machen immer dann Sinn, wenn entweder keine echten Messdaten vorhanden sind oder nicht ausreichend vorliegen. Ebenfalls kann es sinnvoll sein Muster selbst zu erzeugen, um die Erkennung in bestimmte Richtungen zu lenken. Das ist immer dann nötig, wenn Daten die qualitative Güte für ein Training nicht erfüllen. Für das Beispiel der Erkennung von Getränken wurden so ausschließlich synthetische Datensätze verwendet. Strategie ist es innerhalb eines Plausibilitätsbereichs je Kennwert eine natürliche Verteilung von Messwerten zu simulieren. Ausschlaggebend ist, dass die zu detektierenden Muster dargestellt sind. Ein Beispiel kann hier heruntergeladen werden:

In der Excel Datei anbei wird aufgezeigt, wie die einzelnen Kenndaten mit Zufallszahlen belegt wurden. Dabei wurde, um eine Spezifikation herum, der Messwert zufällig belegt. Auf diese Weise können vereinfacht viele Datensätze erzeugt und trainiert werden.

Zurück zu: Machine Learning Diagnostik > 020 Diagnose von Messdaten