Anomalieerkennung mit Machine Learning: Zwei Methoden im Fokus
Wie Versicherer mit Machine Learning die Anomalieerkennung effizienter gestalten können und welche zwei Methoden helfen.
Der Mensch ist fasziniert vom Besonderen und Anormalen. Ein Beispiel? Suchen Sie doch einmal in der Suchmaschine Ihres Vertrauens nach Bildern von Kleeblättern. Sehen werden Sie Pflanzen mit vier Blättern, obwohl diese nur ca. 0,05% der gemeinen Kleeblätter ausmachen.
Auch in der oft weniger malerisch anmutenden Welt der Bestandsdaten bei Versicherern schlummert die eine oder andere Besonderheit. Anders als unser Kleeblatt sind diese nicht nur selten, sondern meist auch noch schwer zu erkennen. So ist der Anstieg der Versicherungssumme allein nicht verdächtig, ebenso wenig wie eine sinkende monatliche Rate. Aber was ist, wenn beides zur gleichen Zeit passiert? In der Versicherungsbranche gibt es hier ein großes Optimierungspotenzial: Zu oft werden die Bestandsdaten nicht umfassend auf Auffälligkeiten – sogenannte Anomalien – untersucht. Fehlerhafte Wertausprägungen oder auch Betrugsversuche bleiben damit unerkannt. Die Lösung: Anomalieerkennung mittels Machine Learning.
Was ist Anomalieerkennung?
Anomalieerkennung bedeutet, Muster in Daten zu entdecken, die ungewöhnlich und besonders sind. Doch wodurch zeichnen sich Anomalien eigentlich aus? Zwei grundlegende Eigenschaften sind hier elementar:
- Anomalien treten in den Daten nur sehr selten auf.
- Ihre Merkmale unterscheiden sich signifikant von normalen Instanzen.
Je weiter eine Beobachtung von der Norm entfernt liegt, desto anomaler ist sie. Davon wird grundsätzlich ausgegangen. Dies beruht auf der Annahme, dass sich die Ähnlichkeit zweier Beobachtungen als Abstand zueinander bemessen lässt, sobald eine geeignete numerische Repräsentation vorliegt. Allerdings ist diese Annahme nicht für jede klassisch erzeugte numerische Repräsentation erfüllt.
Und wie lassen sich Anomalien nun identifizieren? Klassisch stehen hierzu zahlreiche stochastische Methoden zur Verfügung. Diese stoßen allerdings schnell an ihre Grenzen: Oftmals müssen vereinfachende oder unpräzise Annahmen getroffen werden, etwa über die Verteilung der Daten. Insbesondere bei schwer zu entdeckenden, komplexen Anomalien, welche sich nur beim gleichzeitigen Betrachten vieler Variablen erkennen lassen, kommen statistische Verfahren in der Praxis deshalb nicht weiter.
Zwei Arten der Anomalieerkennung mit Machine Learning-Methoden
Abhilfe können moderne Methoden des Maschinellen Lernens schaffen. Diese ermitteln „vorurteilsfrei“ eine Norm, wie sich Bestandsänderungen zu verhalten haben. Auf dieser Basis kann damit anormales Verhalten, also Ausreißer, ausfindig gemacht werden. Hierzu gibt es verschiedene Verfahren, die unterschiedlich gut Anomalien in den gegebenen Daten eines Anwendungsfalls erkennen können. Wir wollen hier zwei Ansätze des Machine Learning beleuchten:
- Autoencoder
- Isolation Forest.
Autoencoder
Numerische Darstellung als Abfallprodukt?
Hier kommt die einzigartige Eigenschaft von Neuronalen Netzen zum Einsatz: Während sie eine unmittelbare Aufgabe lösen (z. B. ein Klassifizierungsproblem), erlernen sie „gute“ numerische Repräsentationen der vorliegenden Beobachtungen. Wenn ein Netz gut genug funktioniert, hat es höchstwahrscheinlich die wesentlichen Zusammenhänge in den Daten erkannt und seine numerischen Repräsentationen spiegeln die vorliegenden Beobachtungen wider.
Autoencoder zur Dateikompression
Ein Autoencoder ist ein spezielles künstliches neuronales Netz, welches zum Erlernen effizienter Daten-Codierungen verwendet wird. Das Netz besteht aus einem Encoder- und einem Decoder-Netzteil. Der Encoder nimmt hochdimensionale Eingabedaten entgegen und übersetzt sie in latente niedrigdimensionale Daten. Der Decoder nimmt diese Darstellung als Eingabe, um die ursprünglichen Eingabedaten zu rekonstruieren. Autoencoder versuchen im Rahmen ihres Trainings, den Rekonstruktionsfehler zu minimieren.
Ein anschauliches Beispiel vom Einsatz von Autoencodern liefert das Komprimieren von Bilddaten: Gegeben ist ein Bild in sehr hoher Auflösung und von exzellenter Qualität. Wollen wir sehr viele solcher Bilder speichern oder versenden, so ist eine explizite Speicherung jedes einzelnen Bildpunktes wegen der Dateigröße nicht praktikabel. Ein Autoencoder kann Abhilfe schaffen: Der Encoder komprimiert das Bild in eine niedrigere Dimension, sodass weniger Speicherplatz für das Bild benötigt wird. Wir können uns das in etwa so vorstellen, dass das Bild sehr verpixelt, also mit geringer Auflösung abgespeichert werden kann.
Wollen wir uns das Bild später erneut anschauen, so wird dieser gespeicherte Stand durch den Decoder quasi zurück-transformiert, das Originalbild wird wiederhergestellt. Dies funktioniert mit modernen Autoencodern erstaunlich gut – die Unterschiede zwischen Original und Rekonstruktion sind oft quasi nicht zu erkennen.
Der Autoencoder-Ansatz zur Anomalieerkennung
Wie hilft uns das nun bei der Anomalieerkennung? Bleiben wir bei unserem Bild: Wie bei jeder Kompression geht auch beim Autoencoder Information verloren. Das Netz lernt in der Regel auf einem sehr großen Datensatz an Bildern, diesen Informationsverlust zu minimieren. Dies gelingt modernen Netzen auch sehr gut – solange ein Bild in etwa den Mustern und Gesetzmäßigkeiten entspricht, die in relevanten Bestandteilen des Traningsdatensatzes bereits beobachtet werden konnten. Erinnern wir uns an unsere Annahme, dass Anomalien selten sind und sich signifikant von der Norm unterscheiden, so wird klar: Unser Autoencoder wird Probleme damit haben, anomale Bilder zu rekonstruieren.
Ausreisßer werden erkannt, indem das Ausmaß des Rekonstruktionsverlustes überprüft wird. Das Einstellen eines Schwellenwertes für den Rekonstruktionsfehler ermöglicht es, die verdächtigen Zustandsänderungen zu identifizieren und herauszufiltern.
Problemlos gelingt eine Verallgemeinerung der Idee auf tabellarische Daten wie beispielsweise Bestandsdaten eines Versicherers: Auf unserem Bestand trainieren wir einen Autoencoder bestehend aus Encoder und Decoder.
Der Encoder reduziert dabei die Dimension der Daten. Hat etwa ein Vertrag 100 Merkmale, so könnte der Encoder hieraus beispielsweise 10 abgeleitete Merkmale herleiten.
Der Decoder wiederum ist so trainiert, dass er aus den 10 abgeleiteten Merkmalen den ursprünglichen Vertrag möglichst präzise wiederherstellen kann.
Betrachten wir nun den Unterschied zwischen dem tatsächlichen Vertrag und der Rekonstruktion des Decoders, so erlaubt uns dieses Vorgehen ein automatisiertes Erkennen von Anomalien – das sind genau die Verträge, welche besonders schlecht rekonstruiert werden konnten.
Isolation Forest
Zwei Algorithmen sind besser als einer
Bevor die mit der ersten Methode gefundenen Anomalien den Sachverständigen zur Überprüfung vorgelegt werden, bietet es sich an, eine zweite Meinung einzuholen. Im Bereich des maschinellen Lernens ist es üblich, die mit einer Methode erzielten Ergebnisse mit Hilfe anderer Lernverfahren zu bestätigen oder sogar eine Art Kombination aus mehreren Algorithmen erstellen. Jede Methode liefert eine Schätzung der Anomalien und diese Schätzungen werden dann „gemittelt„. Der Isolation Forest ist eine Methode, welche oft als Pendant zum Autoencoder eingesetzt wird.
Am Anfang war der Baum
Lernende Entscheidungsbäume stellen eine der herkömmlichen ML-Methoden dar. Ein Entscheidungsbaum ist nichts anderes als eine verschachtelte ja/nein- bzw. größer/kleiner-Abfrage. Die Aufteilung der Daten beginnt an der Wurzel des Baums und erfolgt iterativ, bis alle Instanzen auf die sogenannten Blätter aufgeteilt sind. Und obwohl jeder einzelne Baum für sich genommen eine niedrige Klassifizierungsqualität liefert, erlaubt es ein großes Ensemble von Entscheidungsbäumen, ein sog. Random Forest, es sehr gute Ergebnisse zu erzielen.
Isolation Forest
Dieses Verfahren ist eine Variante des Konzepts des Random Forests. Und besitzt seine üblichen Vorteile – im Vergleich zum Autoencoder-Konzept ist Isolation Forest sehr intuitiv und anschaulich:
- Ein Isolation Forest besteht aus mehreren Bäumen
- jeder Baum wird so lange aufgebaut, bis die Stichprobe erschöpft ist
- jeder Zweig im Baum entsteht, indem ein Merkmal zufällig ausgesucht und zufällig gesplittet wird
- für jede Beobachtung ist das Maß ihrer Normalität das arithmetische Mittel der Tiefen der Blätter, in die es fällt (sich isoliert)
Die Logik des Algorithmus ist einfach: Bei der beschriebenen „zufälligen“ Art der Baumbildung gelangen die Ausreißer früh in die Blätter (in einer geringen Tiefe des Baums), d. h. die Ausreißer sind leichter zu „isolieren“. Der Baum wird so lange aufgebaut, bis sich jedes Objekt in einem eigenen Blatt befindet.
Fazit: Warum sich Anomalieerkennung mit Machine Learning-Methoden lohnt
Interesse an einem verstärkten Einsatz von Machine Learning im Versicherungsalltag hängt mit dem verständlichen Wunsch zusammen, mehr Entscheidungen automatisiert treffen zu können. Je nach dem zu lösenden Problem ermöglichen Algorithmen eine schnellere und genauere Entscheidungsfindung. Die Besonderheit der in diesem Beitrag vorgestellten Algorithmen besteht darin, dass sie nicht nur einen Geschwindigkeits- und Genauigkeitsvorteil bei der Erkennung von Anomalien bieten, sondern das Lösen dieser Aufgabe überhaupt ermöglichen. Anomalien, die auf einen Extremwert eines der Merkmale zurückzuführen sind, stellen für klassische Warnsysteme oder das geschulte Auge von Experten kein großes Problem dar. Aber das ist nur ein Bruchteil dessen, was entdeckt werden soll. Unstimmige Attributwerte in ihrer Gesamtheit sind genau das, was oft eine Anomalie zu einer solchen macht. Erinnert sei an unser Beispiel von der steigenden Versicherungssumme bei gleichzeitigem Sinken des Beitrags.
In der Realität können diese Zusammenhänge noch wesentlich komplexer sein. Weder Experten noch ausgeklügelte Regelsysteme vermögen es, hier einen ganzheitlichen Überblick über alle möglichen anomalen Zustände zu bekommen. Natürlich haben auch maschinelle Lernmethoden ihre Limitationen – nicht alles, was sie als anormal erkennen, muss auch eine fehlerhafte oder unplausible Instanz sein. Der Bereich der Anomalieerkennung ist ein klassisches Beispiel dafür, wie Experten und maschinelles Lernen sich gegenseitig unterstützen und ergänzen.
Sie wollen mehr darüber erfahren, wie Sie künstliche Intelligenz in Form von Machine Learning in Ihrem Unternehmen einsetzen können oder wie die Methoden der Anomalieerkeunng zur Betrugserkennung nutzen können? Kontaktieren Sie uns gerne für einen Austausch.
Autoren
Alexey Goldstein – Junior IT-Consultant (Data Science)
Alexey Goldstein ist Datenanalyst und Mitglied des KI-Teams der Convista. In dieser Rolle entwickelt er kundenspezifische Produkte, insbesondere zur intelligenten Dokumentenanalyse.
Alexey Goldstein
Maximilian Lorenz – Data Scientist
Bereits während seines Mathematikstudiums an der Universität Würzburg beschäftigte sich Maximilian Lorenz mit neuronalen Netzen und dem Einsatz von Algorithmen des Machine Learning. Als Data Scientist bei der Convista betreut er KI-Projekte bei internationalen Kunden aus dem Versicherungsumfeld.
Maximilian Lorenz