Im Gespräch mit Marvin Stölzle, Projektleiter.
Bevor es an die Datensammlung ging, war es wichtig, die Idee, den angestrebten Projektumfang und insbesondere auch die Projektziele zu definieren. Denn ohne einen genauen Plan oder eine Zielvorstellung darüber, was das KI-Modell erlernen soll, weiß man auch nicht, welche Daten dazu notwendig sind.
Wir haben Gespräche mit Grünflächenämtern und Betriebshöfen unterschiedlicher Städte geführt, um deren Probleme zu identifizieren. Beim Thema Windbruch konnten wir zwei unterschiedliche Szenarien identifizieren, in denen ein KI-Service helfen könnte:
Wir haben uns für einen ersten Prototyp auf das zweite Szenario konzentriert. Diese Fragestellung lässt sich durch ein Klassifikationsmodell lösen. Das Modell soll Wettersituationen analysieren und für jeden Stadtteil eine Wahrscheinlichkeit abgeben, dass dort Windbruch vorkommt. Für das Training eines solchen KI-Modells werden historische Daten benötigt. In unserem Fall: historische Daten über das Wetter, sowie Daten darüber, wann und wo Windbruch vorkam. Das Modell versucht anschließend Zusammenhänge zwischen dem Zeitpunkt und Ort für Windbruch und der jeweiligen Wettersituation zu erlernen.
Die historischen Wetterdaten haben wir über den Deutschen Wetterdienst (DWD) bezogen, der eine Wetterstation in Heilbronn betreibt. Der DWD stellt für all seine Wetterstationen die aktuellen und historischen Daten frei verfügbar online. Schwieriger war es, Daten über Windbruch in der Vergangenheit zu bekommen, da Städte und deren Ämter diese nicht systematisch erheben. Als Alternative haben wir Einsatzdaten der Feuerwehr genutzt. Die Feuerwehr Heilbronn hat uns freundlicherweise eine Liste mit Einsätzen im Zusammenhang mit »Windbruch« zur Verfügung gestellt, aus der der Stadtteil, sowie die Uhrzeit hervorgeht.
Das KI-Modell konnten wir mit diesen Daten nun trainieren, mögliche Zusammenhänge zwischen den Einsatzorten und -zeiten sowie den Wetterdaten zu lernen.
Wir haben hier erstmal einen Prototyp entwickelt, um zu prüfen, ob die Vorgehensweise erfolgsversprechend ist. Um die Funktionsweise zu demonstrieren haben wir ein Dashboard veröffentlicht, das jeweils die aktuelle Wetter- bzw. Windsituation in Heilbronn sowie die Wahrscheinlichkeit für Windbruch in den jeweiligen Stadtgebieten anzeigt. Wir haben noch keine Testphase durchgeführt, aber wir gehen davon aus, dass das Modell Windbruch für einen produktiven Einsatz noch nicht in ausreichender Genauigkeit vorhersagen kann.
Das hat mehrere Gründe. Einerseits haben wir zu wenig Trainingsdaten. Wir haben von der Feuerwehr Heilbronn die Einsätze in Zusammenhang mit »Windbruch« aus den letzten zwei Jahren. Glücklicherweise gab es in dieser Zeit nur sehr wenige Einsätze, aber für ein KI-Modell bräuchte man im Idealfall mehrere tausend Beispieldaten. Zweitens sind die Daten vermutlich nicht aussagekräftig genug.
Da es keine genauen Daten über Windbruch in Heilbronn gibt, nutzen wir die Daten der Feuerwehr, die aber aus unterschiedlichen Gründen nicht optimal sind. Der Zeitpunkt des Notrufs entspricht nicht zwingend dem Zeitpunkt des Windbruchs und ein Notruf wird in der Regel nur abgesetzt, wenn Personenschaden droht. Zusätzlich wurden die Einsätze mit dem Schlüsselwort »Windbruch« archiviert, man kann aber nicht mehr rekonstruieren, was genau vorgefallen ist.
Der Deutsche Wetterdienst bietet zwar umfangreiche Daten an, aber auch diese Daten sind für unseren Use Case sowohl aus räumlicher als auch aus zeitlicher Sicht nicht ausreichend detailliert. Die Windverhältnisse können sich schon von Stadtteil zu Stadtteil unterscheiden, es gibt jedoch nur eine Wetterstation in Heilbronn. Zusätzlich können sich Windverhältnisse in kurzer Zeit verändern, z.B. drehende Winde. Die Daten der Wetterstation gibt es aber nur im 10-Minuten-Zeitfenster in Form von Mittelwerten für bspw. Windrichtung und Windstärke.
Diese Nachteile führen dazu, dass das Modell falsche oder gar keine Zusammenhänge zwischen Einsatz bzw. Windbruch und Wetter lernt oder auch dass die erhaltenen Ergebnisse nicht genau nachvollzogen werden können. Um das KI-Modell trotz der schlechten Datenlage zu verbessern, könnte man noch versuchen, zusätzlich zu den Wetterdaten weitere Datenquellen miteinzubeziehen. Städte führen beispielsweise häufig Baumkataster, in denen alle städtischen Bäume aufgeführt sind. Anzahl, Lage und Art der Bäume könnten für ein KI-Modell interessante Daten darstellen.
Aus der Modellentwicklung selbst nehme ich auf jeden Fall mit, wie wichtig es ist, sich die vorliegenden Daten genau anzuschauen und zu beurteilen, ob diese wirklich geeignet sind, das vorliegende Problem zu lösen. Häufig geht man davon aus, dass ein KI-Modell jedes Problem lösen kann, wenn man das Modell nur lange genug optimiert. Aber das funktioniert natürlich nur, wenn die notwendigen Informationen auch in den Daten stecken. Deshalb lohnt es sich, zu Beginn eines KI-Projekts ausreichend Zeit in die Analyse der Daten zu stecken.
Zusätzlich konnte ich viele Erfahrungen zum Deployment, also dem Online-Stellen des Service sammeln. Von einem ersten Modell bis zu einem funktionsfähigen Online-Service ist es noch sehr viel Aufwand. Das Gute ist, dass sich dieser Prozess nicht mit jedem Modell grundlegend ändert, und ich in den nächsten Projekten hierauf aufbauen kann.
Tatsächlich, wie viele Gedanken man sich in der Praxis bei KI-Projekten schon zur Datenakquise machen muss, noch bevor ein Projekt startet oder bevor die Modellentwicklung starten kann. Und dass man im Idealfall, um ausreichende Datenmengen zu bekommen, schon Jahre oder Jahrzehnte lang Daten sammeln muss. Gerade in einem Anwendungsfall wie der Prognose von Windbruch, der nicht täglich vorkommt.
Sich frühzeitig über mögliche Anwendungsfälle von KI Gedanken zu machen und, auch wenn es nur erste lose Ideen sind, sollte man diese nicht für sich behalten, sondern mit Fachleuten über das Potenzial sprechen. In Workshops können beispielsweise sehr unkompliziert die Ideen konkretisiert und gemeinsam Schritte definiert werden, wie man in der Praxis zu einer soliden Datenbasis kommt, die in zukünftigen Projekten auch einen Mehrwert bietet. Wir haben in diesem Projekt die Erfahrung gemacht, dass man nicht beliebige Daten nutzen kann und für eine gute Datenbasis sehr lange Daten sammeln muss. Vor diesem Hintergrund kann man damit gar nicht früh genug anfangen.