Künstliche Intelligenz und ChatGPT für offene Daten

Jeder spricht darüber, alles glauben es zu kennen: ChatGPT ist die neue Allzweckwaffe mit erstaunlichen Fähigkeiten im Bereich der Kommunikation mit digitalen Assistenten.Bei Open Data geht es um Daten, die öffentlich zur Verfügung gestellt werden. Wie passen ChatGPT und Open Data zusammen? Wir haben beides kombiniert und stellen Erstaunliches fest.

Was kann ChatGPT besonders gut?

ChatGPT ist ein leistungsstarkes Sprachmodell von OpenAI, das über beeindruckende Fähigkeiten im Textverständnis, der Generierung kreativer Antworten, einer umfassenden Wissensbasis und einer vielseitigen Anwendbarkeit verfügt. Ein neuer Ansatz im Bereich der künstlichen Intelligenz (KI), der im Gegensatz zu vielen vorigen Ansätzen sehr einfach nutzbar ist.

Zu den Eigenschaften von ChatGPT zählen:

Sprachliches Verständnis: Es kann komplexe menschenähnliche Konversationen verstehen und menschenähnlich reagieren
Kreativität: Es generiert originelle und gut formulierte Antworten auf vielfältige Fragestellungen
Wissensreichtum: Basierend auf einer breiten Datenbank bietet es umfangreiche und sachkundige Informationen. Die Datenbasis reflektiert den Sachstand des Internets und wurde damit trainiert
Anpassungsfähigkeit: ChatGPT kann für verschiedene Anwendungen und Domänen feinabgestimmt werden, um spezifische Anforderungen zu erfüllen

ChatGPT ist besonders geeignet für virtuelle Assistenten, Content-Erstellung, kreative Schreibprojekte, Lernplattformen und viele weitere Anwendungsfälle, bei denen leistungsfähige und flexible Sprachverarbeitung gefragt ist.

ChatGPT und die Datenwelt

Bei Open Data werden Daten bereit gestellt. Diese Daten sind weitgehend kontextfrei, d.h. die Datensätze besitzen keinen oder nur wenig Bezug zu Anwendungen, Prozessen oder anderen Umfeldinformationen. Metadaten beschreiben die Daten zwar grundlegend. Zum umfangreichen Verständnis Daten sind weitergehende Informationen notwendig, wie Beschreibungsdokumente, Analyse, grafische Auswertungen, etc.

Die in CKAN als Ressourcen bereit gestellten Daten (PDF-Dokumente, CSV-Tabellen, Geo-Daten, etc.) werden oft und bestimmungsgemäß als Rohdaten bereit gestellt. Je „roher“ die Daten sind, desto leichter fällt eine maschinelle Verarbeitung. So können Temperaturwerte einfacher verarbeitet werden, wenn sie als „2,3“ angegeben sind als eine Angabe der Form „2,5 Grad Celcius“. Die Daten werden also mit Blick auf die Weiterverarbeitung und nicht auf deren schnelle und einfache Lesbarkeit durch Menschen veröffentlicht.

Und genau hier kommt ChatGPT ins Spiel: Insbesondere die Assistenzfähigkeit von ChatGPT unterstützt Nutzer bei der Interpretation und Analyse der Daten.

Obwohl es ursprünglich als Sprachmodell entwickelt wurde, kann es bei einigen Datenanalyse-Aufgaben sehr hilfreich sein:

Textbasierte Datenanalyse: ChatGPT kann helfen, unstrukturierte Textdaten zu verarbeiten und relevante Informationen zu extrahieren, wie beispielsweise Sentimentanalyse, Themenextraktion oder Schlüsselworterkennung.
Dateninterpretation: Bei der Interpretation von komplexen Datensätzen kann ChatGPT eine unterstützende Rolle spielen, indem es die Ergebnisse in verständlicher Form erklärt und interpretiert.
Frage-Antwort-Anwendungen: ChatGPT kann als Frage-Antwort-System dienen, um Fragen zu einem bestimmten Datensatz zu beantworten und auf Basis der verfügbaren Informationen nützliche Einblicke zu liefern.
Data Storytelling: Es kann verwendet werden, um datengetriebene Geschichten zu erstellen und die Ergebnisse von Analysen in verständlicher und interessanter Weise zu präsentieren.

Es ist jedoch zu beachten, dass ChatGPT in erster Linie ein Sprachmodell ist und nicht die volle Bandbreite an fortgeschrittenen Datenanalyse-Techniken und -Algorithmen bietet, die speziell für diese Zwecke entwickelt wurden. Für anspruchsvollere Datenanalysen sind spezialisierte Tools und Software empfehlenswert, die darauf ausgelegt sind, umfassende statistische Analysen, maschinelles Lernen und Data Mining durchzuführen.

Ein beeindruckendes Beispiel für eine Datenanalyse

Mit diesem Beispiel soll eine einfache Datenanalyse durchgeführt werden. Hierzu nutzen wir den Datensatz „Coronabedingte Entwicklung des Bruttoinlandsprodukts“ des Corona-Open-Date-Portals der Ondics GmbH. Es gibt eine Ressource „Entwicklung des Bruttoinlandsproduktes seit 2008“, in der die Daten als schlichte CSV-Tabelle mit den drei Spalten enthalten sind:

Quartal
Veränderung gegenüber dem Vorjahresquartal
Veränderung gegenüber dem Vorquartal (saison- und kalenderbereinigt)

Diese Datei wird nun geöffnet, und nach ChatGPT in Textform kopiert. Davor wird ChatGPT noch instruiert, was mit den Daten erfolgen soll:

Analysiere die Daten. Welche prägnanten Erkenntnisse lassen sich daraus schließen?

„Quartal“;“Veränderung gegenüber dem Vorjahresquartal“;“Veränderung gegenüber dem Vorquartal (saison- und kalenderbereinigt)“
„2008-01-01 01:00:00“;1,975281395;0,640136562
„2008-04-01 02:00:00“;2,922254934;-0,24382487

[…]

ChatGPT genügt diese Aufforderung, um folgendes Analyseergebnis zu erzeugen:

Basierend auf den Daten lassen sich einige prägnante Erkenntnisse ableiten:

Wirtschaftliche Schwankungen: Die Veränderungen gegenüber dem Vorjahresquartal zeigen, dass es in der Vergangenheit sowohl positive als auch negative Wachstumsraten gab. Besonders hervorzuheben sind die deutlichen Rückgänge in den Quartalen um 2009, was auf die Auswirkungen der Finanzkrise hindeuten könnte. Es gab jedoch auch Phasen mit positivem Wachstum, zum Beispiel in den Jahren 2010 und 2011.

Saisonale Muster: Die Veränderungen gegenüber dem Vorquartal, die saison- und kalenderbereinigt sind, zeigen, dass es innerhalb der Quartale auch Schwankungen gab, die nicht allein auf saisonale Faktoren zurückzuführen sind. Dies deutet darauf hin, dass es auch andere Einflussfaktoren geben könnte, die die Quartalsdaten beeinflussen.

Jüngste Entwicklungen: In den jüngsten Quartalen (ab 2021) scheint es eine gewisse Stabilität zu geben, da die Veränderungen gegenüber dem Vorjahr und dem Vorquartal moderat sind. Dies könnte auf eine Phase relativer wirtschaftlicher Stabilität hinweisen.

Besondere Ereignisse: Auffällig sind die außergewöhnlichen Veränderungen im Jahr 2020, insbesondere im zweiten Quartal, wo es zu einem dramatischen Rückgang kam. Dies könnte auf die Auswirkungen der COVID-19-Pandemie zurückzuführen sein, die die Wirtschaft weltweit beeinflusst hat.

Besonders interessant ist, dass die Analyse mit dem „Wissen“ von ChatGPT ergänzt wird. So versucht ChatGPT einen Bezug zur „COVID-19-Pandemie“ herzustellen, was zulässig erscheint.

Open Data kann mit künstlicher Intelligenz noch viel mehr

Die Kombination von Open Data und künstlicher Intelligenz erleichtert den Zugang für Nutzer zu den bereit gestellten Daten. Es gibt erstaunliche Potenziale eingehen, die sich eröffnen, wenn Open Data und künstliche Intelligenz (KI), insbesondere ChatGPT, kombiniert werden:

Bessere Datenauswertung und -verarbeitung: Durch den Einsatz von KI wie ChatGPT können riesige Mengen an offenen Daten viel effizienter analysiert und verarbeitet werden. ChatGPT kann dabei helfen, komplexe Zusammenhänge zu erkennen, Muster zu identifizieren und wertvolle Einblicke in die Daten zu gewinnen, die Menschen allein möglicherweise übersehen würden.
Data Storytelling und Visualisierung: KI-gestützte Modelle wie ChatGPT können nicht nur Rohdaten analysieren, sondern auch dabei helfen, diese Daten in verständliche Geschichten und visuelle Darstellungen umzuwandeln. Dadurch können komplexe Daten für ein breiteres Publikum zugänglich und verständlich gemacht werden.
Datenbereinigung und -aufbereitung: Open Data kann oft unvollständig, unstrukturiert oder fehlerhaft sein. KI kann dazu eingesetzt werden, diese Daten automatisch zu bereinigen und aufzubereiten, was die Qualität und Nutzbarkeit der Daten deutlich verbessert.
Predictive Analytics und Trendvorhersagen: KI-gestützte Modelle können auf Basis von historischen und zeitbezogenen Open-Data-Datensätzen zukünftige Trends und Entwicklungen vorhersagen. Dadurch können Regierungen, Unternehmen und Organisationen fundierte Entscheidungen treffen und besser auf kommende Herausforderungen reagieren.
Verbesserung der Bürgerbeteiligung und -interaktion: Durch den Einsatz von KI in Verbindung mit Open Data können Bürger*innen einfacher auf relevante Informationen zugreifen und diese für ihre Anliegen nutzen. Das fördert die Transparenz und die partizipative Mitwirkung der Bevölkerung.
Entwicklung innovativer Anwendungen: KI-gestützte Modelle wie ChatGPT bieten eine Vielzahl von Anwendungsmöglichkeiten für Open Data. Entwickler können diese Modelle nutzen, um benutzerfreundliche Anwendungen und Tools zu erstellen, die das Verständnis und den Zugang zu Open Data weiter verbessern.

Unsere Empfehlung: Einsatz! Aber mit Bedacht!

Es darf nicht verschwiegen werden, dass KI und Open Data auch auch ethische Herausforderungen mit sich bringt: So ist wichtig sicherzustellen, dass die Nutzung von KI und Open Data im Einklang mit Datenschutz, Fairness und Transparenz steht. Die Interpretation von Daten sollten immer abgeschätzt, geprüft und qualitätsgesichert werden. Auch wenn das bei großen Datenmengen und komplexen Datenbeziehungen aufwändig sein kann.

Die Kombination von Open Data und KI deutet in eine vielversprechende Richtung für die Zukunft. Sie eröffnet Möglichkeiten für innovative Lösungen, datengetriebene Entscheidungsfindung und einen besseren Zugang zu Informationen für die Gesellschaft insgesamt. Gleichzeitig ist es wichtig, verantwortungsbewusst mit diesen Technologien umzugehen und sicherzustellen, dass sie zum Wohle aller eingesetzt werden. Open Data und künstliche Intelligenz haben das Potenzial, die Welt positiv zu verändern, und es liegt in der Verantwortung der Nutzer, Datenbereitsteller und Software-Entwickler, sie verantwortungsvoll zu nutzen und weiterzuentwickeln.