Epidemien mit Machine Learning voraussagen?

Was ist das Ziel von Machine Learning? Das Stichwort ist Automatisierung. Es beginnt mit einer Datensatz-Aufbereitung, zum Beispiel von vorhergegangenen Beurteilungen der Kreditwürdigkeit von Gläubigern einer Bank und tatsächlichen Rückzahlung. Diese wird von einem Algorithmus ausgewertet. Das Ziel ist zukünftige Prognosen über Kreditwürdigkeit von diesem Algorithmus vorauszusagen zu lassen. Kann ein Machine-Learning-Algorithmus ganze Abteilungen in Banken und Finanzinstituten ersetzen? Werden bewertende, voraussagende und modellierende Aufgaben in naher Zukunft gänzlich von Maschinen übernommen?

Anhand von mehreren Beispielen werden wir in diesem Blog diesen Fragen beantworten. Dabei gehen wir insbesondere auf Machine Learning im Kontext von Big Data ein. Wo liegen Schwierigkeiten, Hindernisse und Hürden, die überwunden werden müssen?

Google Flu Trends

Das wohl prominenteste und am meisten rezitierte Beispiel ist, im Kontext von Big Data und Forecasting, Google Flu Trends (GFT). Google begann 2008 mit der Entwicklung eines Vorhersagemodels von weitläufigen Grippewellen und Epidemien. Basierend auf Online-Suchen nach bestimmten Stichworten, sollten die Prognosen erstellte werden. Suchen also viele Menschen in einem kurzen Zeitraum in geographischer Nähe z.B. nach „Symptome Grippe“, sollte der Algorithmus eine Warnung aussenden an nationale Gesundheitsbehörden. Die Vision war, das GFT schneller und besser prognostizieren würde, als traditionelle statistische Vorhersagemodelle. Was sich sinnvoll anhört, stellte sich in der Praxis als schwer umsetzbar heraus. (Kugler, 2016, S. 15)

GFTs Welle des Scheiterns begann 2009 mit dem Verfehlen der Grippewelle A-H1N1. 2010 zeigte eine Studie das traditionelle einfache Modelle konstant genauere Vorhersagen geben würden. Im Jahr 2011 überschätzte GFT der Wahrscheinlichkeit einer Epidemie in 100 von 108 Wochen.

Warum funktionierte GFT nicht wie geplant?

Es gibt verschiedene Gründe für das Scheitern, die in der Literatur aufgezählt werden. Der mit am häufigsten genannte Grund, der auch für diesen Artikel am wichtigsten ist, liegt in der Datengrundlage von GFT. Sie werden als ein Exempel für Bad Data genannt. Die Daten, auf welcher Basis GFT Prognosen erstellt, sind nicht intendiert für eben diese Untersuchung erstellt worden. Sie sind das Ergebnis einer Suchmaschine, die, wie viele datenproduzierende Unternehmen, akribisch Unmassen an Daten speichern. Speicherung mit der Intention, diese in Zukunft auswerten zu können. Die Schwierigkeit dieses Unterfangens zeigt sich jedoch schon jetzt durch GFT. Die gesammelten Daten sind nicht valide, konstant und trivial interpretierbar.

Grundsätzlich gilt: Viele Daten führen nicht automatisch zu guten Ergebnissen. Diese Annahme ist jedoch bei GFT inhärent. Die Korrelation von Keywords, auf die GFT achtet, und der tatsächlichen Wahrscheinlichkeit einer Grippe-Epidemie sind schwach. Aus einer Suchanfrage-Analyse bei Googles Suchmaschine lässt sich also nicht vorhersagen, ob ein tatsächlicher Grippeanfall vorliegt. So schwach sei die Korrelation, das GFT mehr ein Winterdetektor sei, als ein Grippevirus-Detektor, wird behauptet (D. Lazer, März 2014, S. 3-5).

Die Möglichkeit Daten auszuwerten, leidet zusätzlich, durch laufenden Veränderung am Google-Such-Algorithmus, neuen Features, wie automatischen Suchvorschlägen u.a..  (D. Lazer, März 2014, S. 3-5)

Bad Data bedeutet eine Fehleinschätzung des Datenwerts

Wenn es die Aufgabe eines ML-Algorithmus sein soll, aus Daten Generalisierungen und Schlüsse für die Zukunft zu ziehen, so bestimmt die Qualität des Algorithmus zuallererst die Beschaffenheit der Daten. Dies ist nicht nur zu sehen bei GFT, sondern auch bei verschiedenen anderen Untersuchungen.

Eine rassistische Software und fehlerhafte Kreditausschüttungen

„Garbage in, garbage out“ (William Isaac, 2017, S. 1) ist der Kommentar von der Untersuchung einer Software für „Predictive Policing“ des Chicago Police Departments. Die Software sollte Routen für die Streifenfahrten entwickeln, die die höchste Wahrscheinlichkeit haben, Verbrechen zu entdecken. Leider waren die Daten, aus der die Software lernen sollte, ein Abbild menschlicher Erhebung. Es konnte nachgewiesen werden, dass Vorurteile und Rassismus die Daten färbten und somit auch die Routen beeinflussten. (William Isaac, 2017)

Weiterhin interessant ist der Schluss, zu dem Forscher kommen, die Prognosen zur Kreditwürdigkeit von Personen erstellt haben mit verschiedene ML-Prognosemodellen. Sie stellen fest, dass der Zustand der Forschung embryonisch ist. Viele Parameter, viele Ansätze und verschiedene Datenansätze existieren und nur leichte Veränderungen einzelner Faktoren könnten weitreichende Veränderungen bewirken. Sie folgern, dass die Implementierung ein hohes Risiko für Banken und Finanzinstitute hätte. (Guégan & Hassani, 2018)

Ist Big Data und Machine Learning nun das Allheilmittel?

Abschließend lässt sich sagen, dass Datensätze ein entscheidender Schlüssel für erfolgreiche ML-Algorithmen sind. Sind diese nicht valide, nicht objektiv oder nicht logisch ausgewählt, können diese das größte Hindernis sein. Big Data und Machine Learning ermöglicht eine Vielzahl neuer Möglichkeiten. An den verschiedenen Beispielen sehen wir jedoch, dass der technischen Fortentwicklung Grenzen gesetzt sind.

Literaturverzeichnis

D. Lazer, R. K. (März 2014). The Parable of Google Flu: Traps in Big Data Analysis. Science 343 (6178).

Guégan, D., & Hassani, B. (2018). Regulatory learning: How to supervise machine learning models? An application to credit scoring. The Journal of Finance and Data Science 4, S. 157-171.

Kugler, L. (Juni 2016). What happens when Big Data blunders? Communications of the ACM(Vol. 59, No .6), S. 15-16.

William Isaac, A. D. (05. November 2017). How Big Bad Data Could Make Policing Worse. FastCompany.

 

 

Print Friendly, PDF & Email

Leave a Reply

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.