Die Leiden eines Datenanalytikers

Ich publiziere täglich internationale und österreichische COVID-19-Berichte.

Das mache ich mit einem teilautomatisierten Ablauf mit mehreren Software- Werkzeugen.

Die Daten über die Bundesländer kopiere ich manuell (unterstützt durch ein Excel-Makro) von der Informationsseite des Sozialministeriums in eine Excel-Datei. Das Berichterstellungsprogramm liest die Daten dann aus dieser Excel-Datei ein. Ich mache das manuell, damit ich die Daten auch „in die Hand nehme“, bevor ich etwas daraus abgeleitetes veröffentliche.

Für die Ampelkarten in diesen Berichten brauche ich die täglich zum gleichen Zeitpunkt erhobenen Zahlen der politischen Bezirke. Die gibt es im Dashboard des Sozialministeriums sogar zum herunterladen, aber immer nur die letzten Werte, nicht den zeitlichen Verlauf.

Dass es da keine Zeitreihen gibt ist sehr ärgerlich. Zum Glück gibt es nette und kompetente Menschen wie Attila Kerekes (@keriati auf Twitter), der diese Daten stündlich herunterlädt und auf Github zur Verfügung stellt. Von dort hole ich mir die Bezirksdaten (per Software) und verarbeite sie weiter.

Und da ist mein Verarbeitungsprogramm heute abgestürzt. Mit einiger Mühe habe ich herausgefunden warum. In verwende für die Ampelkarten immer die Daten mit dem Zeitstempel 8:00. Die gab es gestern aber nicht (zum ersten Mal übrigens). Es gab nur 7:00 und 9:00 Daten. Darauf war mein Programm nicht vorbereitet und versagte den Dienst. Es dauerte einige Zeit, bis ich den Problem lokalisieren und mein Programm adaptieren konnte. Dann konnte ich einen neuen Bericht veröffentlichen.

Diese Geschichte zeigt sehr deutlich, dass die Hoffnung, dass das Sozialministerium konsistente leicht auswertbaren zur Verfügung stellt, derzeit nicht erfüllt wird. Daten konsistent und leicht weiterverarbeitbar zur Verfügung zu stellen ist eigentlich Teil von Informationsfreiheit!

Da gibt es offensichtlich mehr als nur Luft nach oben.

Es sollte einfach alle relevanten Daten in konsistenter Form und als Zeitreihe in einem vernünftigen Datenformat zum Download geben.

Für meine internationalen Berichte lade ich die Daten, die von der Johns-Hopkins-University kuratiert werden, von Github herunter.
Diese Daten sind aus Auswertungssicht vollständig und konsistent. Universitäten können also augenscheinlich verarbeitungsfreundliche Datenbestände zur Verfügung stellen.

Vielleicht sollte Herr Minister Anschober eine Universität beauftragen, die österreichischen COVID-19-Daten vergleichbar sauber kuratiert zur Veröffentlichung aufzuarbeiten. Natürlich gegen Kostenersatz und mit Zugang zu den primären Datenquellen.

Für alle, die die Daten auswerten wollen, um Einsichten zu gewinnen und mit selbst gewonnenen Erkenntnissen über die Ausbreitung der Pandemie an der öffentlichen Diskussion teilzunehmen (Wissenschafter_innen , Datenjournalist_inn_en, sonstige Interessierte …), ist es ein ziemliches Ärgernis, dass das Sozialministerium anscheinend nicht in der Lage ist, Daten in einer Form zur Verfügung zu stellen, die es einer interessierten Öffentlichkeit (inkl. Wissenschafter_innen) ermöglicht, ohne aufwändige Datenschaufelei Daten selbst zu analysieren.