Kurzer Exkurs zu Open Data in Deutschland

Offene Daten gibt’s inzwischen viele.

Im Rahmen der Open-Gouvernement-Initiativen der Regierung (z.B. offenedaten.de , deutschland-api.de, bundestagger.de, opendata.service-bw.de, etc.), der EU (z.B. open-data.europa.eu) und anderer öffentlicher Einrichtungen sind tausende Datensätze zu ebenso vielen Themenbereichen zu finden.

Was stört ist die Form der Veröffentlichung. Schon nach kurzer Recherche fällt auf, dass viele der Daten, die auf den Portalen veröffentlicht werden, in einem kläglichen Zustand und zudem meist alles nur nicht aktuell sind.

Sollten wir uns wirklich für die „Abfallbeseitigung 2007-2008“ in Berlin interessieren – was ja durchaus sein kann – finden wir ein hübsch aufgemachtes XLS-File, in dem die Daten inkl. Graphiken so formatiert sind, dass man sie zwar gut lesen, aber sicher nicht ohne großen Aufwand automatisch auslesen und weiterverwenden kann.

Die Informanten auf daten.berlin.de sind da schon einen Schritt weiter und bieten neben CSV- und XLS-Dateien, die anderenorts gerne auch in ZIP-Archiven verschwinden, eine Rest-API an, die manche Datensätze im json-Format zurückliefert. Lobenswert! Aber dann.. In einen Datensatz bekommt man über die API einen Link auf ein gescanntes PDF (immerhin mit ein, zwei Meta-Informationen). In einem anderen Fall wieder, sind die Informationen aus einem statischen, von Hand bearbeitetem XLS aktueller als die Daten aus der API.

AQuoteApi

Beschäftigtendaten: Screenshot der Datensatzsuche auf http://daten.berlin.de/datensaetze

Wie zu sehen ist, fand die letzte Aktualisierung des Datensatzes am 15.01.2013 statt. Die Daten werden, was ein Klick auf die Überschrift offenbart, auch als json-String ausgeliefert.

AQuoteApiF

Beschäftigtendaten: Screenshot der ausgelieferten Daten im json-Format

Leider ist hier die letzte aktuelle Beschäftigten- bzw. Arbeitslosenzahl (was soll eigentlich dieser Name) von 2011. Wäre zu verschmerzen, wenn die Zahlen aus 2012 zum Veröffentlichungszeitpunkt einfach noch nicht vorliegen würden.

Dem ist aber nicht so, wie ein weiteres Suchergebnis auf der gleichen Seite zeigt.

AQuoteXLS

Arbeitslosenquote Berlin: Screenshot der Datensatzsuche auf http://daten.berlin.de/datensaetze

AQuoteXLSF

Arbeitslosenquote Berlin: Screenshoot der ausgelieferten Daten als XLS-Datei

Die Zahl der Arbeitslosen in Berlin in 2012 existierte also am 07.11.2011 schon? Naja. Egal. aber auf jeden Fall existierte sie am 15.01.2013. Was die Frage aufwirft: Warum ist die Zahl, die genau einmal im Jahr aktualisiert werden muss im einen Datensatz zu finden und im vermeintlich “modernen” nicht?

Dies sind nur Beispiele, die sich unendlich fortsetzen lassen.

Was wir brauchen, ist eine Infrastruktur, in der tagesaktuelle öffentliche Daten – die ja offensichtlich vorhanden sind und auch bereitwillig geteilt werden – in einer verarbeitbaren Form zur Verfügung gestellt werden können. Alles andere ist mühselig! Daten, die eh nicht aktuell oder sinnvoll strukturiert sind, können daher besser auf den entsprechenden Internetseiten gefunden werden. Hier gibt es wenigstens HTML als Strukturierungsebene.

Ein kleines Praxisbeispiel:

Unter www.berlin.de veröffentlicht die Berliner Polizei Pressemeldungen. Ganz abgesehen davon, dass nicht ganz klar ist, welche Kriterien dazu führen, dass ein Polizeieinsatz pressemitteilungswürdig wird, ist das eine ganz schöne Sache. Zu den Pressemitteilungen gibt es auch einen RSS-Feed. Warum in diesem alle Informationen enthalten sind, außer der meist sehr kurze Text der Pressemeldung selbst, bleibt im Dunkeln. Aufgrund der Seitenstruktur ist es allerdings kein Problem alle Informationen zusammen in eine sinnvollere Form zu bringen (so man programmieren kann).

Jsonformat

Ausgabe der Berliner Polizeitickers als Json-String (Auszug)

Nachdem wir den Text der Meldung haben, ist es ein leichtes die Mitteilung ein bisschen zu analysieren und z.B. die Straßennamen, den Bezirk und die Art des Deliktes aus dem Text zu extrahieren. Und schon ist die Meldung mit ganz einfachen Mitteln um ein paar Meta-Daten reicher.

Würden öffentliche Informationen immer in einer solchen Form vorliegen, könnten mit einfachen Verfahren interessante Visualisierungen erstellt werden.

Die Straßennamen können z.B. auf einer Karte angezeigt werden, wie dies auf blaulichtatlas.de zu sehen ist, oder einfach Diagramme in Echtzeit erstellt werden, wie unser kleiner Versuch zeigt.



 

 

 

 

Für eine strukturierte Darstellung des gesamten Datensatzes bitte hier klicken

Direktlink zum Datensatz für Berlin (json)
Direktlink zum Datensatz für Berlin (json)

Gnut.

Leave a Reply

Your email address will not be published. Required fields are marked *