„Wir veröffentlichen Daten ja auf unserer Website“

Eine erste Reaktion auf Open Data ist oft „Wir veröffentlichen Daten auf unserer Website“. Wer so eine Aussage macht, dem fehlen oft elementare Grundlagen von Open Data. Es ist leider nicht damit getan, Excel-Dateien oder PDF-Berichte mit vielen Zahlen zu veröffentlichen. Wir klären auf, was wirklich hinter Open Data steckt.

Wer Präsentationen oder „amtliche“ Informationen benötigt: Wir haben hier ein paar offizielle Open Data Statements zusammengetragen.

Open Data = Offene (!) Daten

Open Data ist im Grunde genommen ein sehr einfaches Konzept. Daten sind dann „offen“, wenn sie durch jedermann und für jegliche Zwecke genutzt, weiterverarbeitet und weiterverbreitet werden können. Es unterscheidet sich von ähnlichen Konzepten wie Open Access, Open Content und Open Source dadurch, dass es bei Open Data ausschließlich um Daten geht.

Und die Daten müssen wirklich offen sein, d.h. sowohl in technischer wie rechtlicher Hinsicht. Also ist eine Nutzung praktisch nicht einschränkbar. Deswegen gibt es entsprechende Nutzungslizenzen, unter denen die Daten bereitgestellt werden. z.B. die Datenlizenz Deutschland

Veröffentlichung mit Sorgfalt

Daten sind nicht gleich Daten. Open Data bedeutet, dass die Daten maschinenlesbar sein sollen. Es gilt das 5-Sterne-Prinzip für die Daten. Demnach sind verlinkte Daten ideal, um einen Kontext mit anderen Daten herzustellen. Eigentlich leicht verständlich: Was nützen z.b. Stadtbezirksnummern mit Kartendaten, wenn Wahlergebnisse in Stadtbezirken anders gegliedert veröffentlicht werden? In der Regel gelten CSV-Listen oder Daten im JSON-Format als geeignete Datenformate.

Auf welche Kriterien im Veröffentlichungsprozess Wert gelegt werden soll, hat die Sunlight Foundation mit 10 Prinzipien zur Open Data Veröffentlichung zusammengestellt: Die Grundsätze sind: Vollständigkeit, Primärquelle, Aktualität, Zugänglichkeit, maschinelle Lesbarkeit, Nichtdiskriminierung, Verwendung von offenen Standards, offene Lizenzierung, Dauerhaftigkeit und niedrige Nutzungskosten

Daten = Rohdaten

Wenn Daten erhoben, gemessen oder zusammengestellt werden, stellt sich immer die Frage nach der Datenqualität. Grundsätzlich gilt bei Open Data: Die Rohdaten sind wichtig, Also unverarbeitet, nicht aggregiert oder gefiltert. Für manche Anwendungsfälle sind um eindeutig erkennbare Messfehler bereinigte Daten die früheste Veröffentlichungsstufe, für andere Daten können auch Daten mit Messfehlern sinnvoll sein.

Das World Wide Web Consortium (W3C) Konsortium hat einen Leitfaden entwickelt, wie öffentliche Institutionen Open Data veröffentlichen können und empfiehlt drei Schritte:

  1. Erster Schritt: Rohdaten online veröffentlichen.
  2. Zweiter Schritt: Die veröffentlichten Daten in einem Online-Verzeichnis sortieren.
  3. Dritter Schritt: Daten für Mensch und Maschine lesbar machen und miteinander vernetzen.

„Auf der Website“ verschenkt Potenziale

Websites sind für Menschen gemacht. Die attraktive Aufbereitung ist oft genau so wichtig wie der Inhalt. Wenn Daten auf der Website veröffentlicht werden, fehlen meist wichtige datenbezogene Funktionen wie Suche, Verschlagwortung, Zugriff über Schnittstellen, Datenvoransicht, etc.

Diese Funktionen bieten Open Data Portale, die meist mit Standard-Software wie CKAN erstellt werden.

In öffentlichen Institutionen ist die Vorstellung, Rohdaten getrennt von deren Visualisierung oder ohne Interpretation zu veröffentlichen, oftmals noch fremd. Die Möglichkeit fremde Algorithmen zu füttern scheint noch zu wenig Wertschätzung zu genießen.

Auf Daten liegt noch wenig Druck

„Daten sind das neue Öl“ hieß es 2017 in einem Artikel des Economist. Damit war gemeint, dass Daten wesentlicher Bestandteil unseres Daseins sind. Was das in Bezug auf unsere digitale Infrastruktur konkret bedeutet, ist vielerorts noch nicht klar erkennbar. Welchen Wert Open Data hat und wie mit der Veröffentlichung unsere digitaler werdende Gesellschaft profitieren kann, muss an Beispielen verdeutlicht und erprobt werden.

So könnten Open Data Standard-Formate einen Druck zur Veröffentlichung erzeugen. Wenn es z.B. Open Data Standards für Bürgermeisterwahlergebnisse gäbe, würden sich Applikationen zur Visualisierung, Analyse oder Weiterverarbeitung der Daten leicht erzeugen lassen. Und dann in mehr als 10.000 Gemeinden einsetzen lassen. Der Druck auf eine einzelne Gemeinde, diese Daten zu veröffentlichen, würde steigen.

Fazit

Die Veröffentlichung von Open Data ist bislang dem politischen Willen überlassen und noch wenig mit Effizienzgründen oder der Eröffnungen von neuen Anwendungsfeldern zur Datennutzung geschuldet. Auch die verwaltungsinterne Nutzung von veröffentlichten Daten als primäre Datenquelle steckt noch in den Kinderschuhen.

„Wir veröffentlichen Daten auf unserer Website“ ist deshalb nicht genug und zu kurz gesprungen.

Wir empfehlen, mit der Konzeption eines Open Data Portals auch über die Datenverwendung nachzudenken und mögliche Datennutzer an den Open Data Überlungen frühzeitig zu beteiligen – oder sogar zur Datennutzung vertraglich zu binden.

Weiterführende Links

Wir haben ein paar „amtliche Informationen“ und Präsentationen zum Thema Open Data gefunden und für ganz gut befunden:

Und außer Konkurrenz natürlich unser Beitrag Interessante Links zu CKAN.