Veröffentliche Daten

Dieses Tutorial erklärt dir Schritt für Schritt, wie du Daten online veröffentlichen kannst, sodass sie andere leicht finden und einfach weiterverwenden können.

Es geht davon aus, dass du deine Daten bereits gesäubert und in einem offenen Format vorliegen hast. Wenn das noch nicht passiert ist, schau dir die Anleitung dafür an.

Datenveröffentlichung in drei Schritten

1.) Mach’ ein Datenpaket
2.) Stelle den Datensatz auf GitHub
3.) Schreib’ einen Blogpost und mach’ den Datensatz bekannt

1.) Mach’ ein Datenpaket

Wenn du die Daten in ein maschinenlesbares offenes Format gebracht und gesäubert hast, sollte man die Daten in ein Datenpaket (engl. „Data Package”) bringen. Ein Datenpaket ist ein sehr einfacher, standardisierter Weg, um Daten so zusammenzupacken, sodass sie andere weiterverwenden können. Es enthält unter anderem Informationen zu Autor, Lizenz und Inhalt des Datensatzes. Dafür wurde ein Standard entwickelt, dem auch wir folgen. Hier fassen wir die wichtigsten Punkte verständlich zusammen.

Für ein Datenpaket brauchst du zumindest folgende Dateien, die gemeinsam in einem Ordner liegen:

  • Datenfile
  • datapackage.json-File
  • Optional: README.md-File
  • Optional: Scripts, Scraper & Co

Datenfile

Das Datenfile liegt etwa in Form einer CSV-Datei vor. Es können aber auch andere Dateiformate oder mehrere Dateien sein. Hier haben wir erklärt, wie du ein Datenfile erstellen kannst.

Wenn du mehrere Datenfiles hast, kannst du sie auch in einem Unterordner “data” ablegen. Bitte achte darauf, dass die Datei- und Ordnernamen kleingeschrieben sind.

datapackage.json-File

Die Datei “datapackage.json” beschreibt das Datenpaket in maschinenlesbarer Form. Sie beinhaltet:
* Generelle Metadaten wie etwa den Namen des Pakets, die Lizenz oder die veröffentlichende Stelle, sowie
* eine Liste der Datenfiles, die in diesem Datenpaket enthalten sind.

Hier ist ein Tool, mit dem du dir ohne technisches Vorwissen selbst eine data.package.json-Datei generieren kannst.
Die Dokumentation erklärt, wie du so ein File selbst schreiben kannst.

README.md-File

Die README.md-Datei verschafft Interessierten einen Überblick über das Datenpaket. Sie ist optional und wird in Markdown verfasst – deshalb auch die Dateiendung “.md”. Markdown ist ein Formatierungsstandard für das Schreiben im Web – und innerhalb von fünf Minuten erlernt. StackEdit ist ein brauchbarer webbasierter Editor für Markdown. Du kannst aber jeden beliebigen Texteditor dafür verwenden.

Die Readme-Datei beantwortet zumindest drei Fragen:
* Woher stammen die Daten?
* Wie wurden sie aufbereitet?
* Was bedeutet die Zeilen- bzw. Spaltenabkürzungen?

Hier ist eine Vorlage für ein Readme-File, das dir bei der Erstellung deiner eigenen Datei helfen soll. Bitte beachte die Schreibweise des Reade-Files: “README.md”.

Scripts, Scraper & Co

Oftmals verlangen die Datenbefreiung- und -säuberung den Einsatz von spezialisierten Skripten oder Scrapern. Es ist natürlich sinnvoll, wenn du diese Codeschnipsel mitveröffentlichst. Wenn der Datensatz zum Beispiel in Zukunft aktualisiert wird, dann können andere auf dem von dir Geschaffenen aufbauen.

2.) Stelle den Datensatz auf GitHub

Es gibt viele verschiedene Möglichkeiten, Datensets online zu veröffentlichen. Wir verwenden GitHub als zentrales Repositorium. Das hat verschiedene Vorteile wie etwa permanente Links oder Versionskontrolle, anhand derer man nachvollziehen kann, wer, wann was gemacht hat.

Hier ist ein englisches Tutorial zur Datenveröffentlichung mit GitHub, das wir im Folgenden zusammenfassen. Auch GitHub hat ein nützliches Tutorial.

  • Registriere dich auf GitHub und lade dir die Software (Windows/Mac) herunter.
  • Gehe zu unserem zentralen Datenrepository auf https://github.com/OKFNat/data und gehe auf “Fork” (rechts oben). Damit kopierst du dir eine aktuelle Version des Projekts und kannst experimentieren, ohne dass das Original verändert wird.
  • Anschließend besuche das von dir „geforkte” Repository und gehe rechts unten auf “Clone in Desktop”. Öffne den Client, gehe auf “Sync”. Damit werden die Dateien lokal auf deinen Computer in einen Ordner deiner Wahl geladen. Jetzt kannst du beliebig Daten hinzufügen oder verändern.
  • Nächster Schritt: “Commit and Sync master”. Das synchronisiert deinen lokalen Datensatz mit deinem persönlichen Repository am GitHub-Server
  • Über einen so genannten Pull-Request kannst du jetzt vorschlagen, dass deine Änderungswünsche in unser zentrales Datenrepository übernommen werden.

3.) Schreib’ einen Blogpost und mach’ den Datensatz bekannt

Du hast viel Zeit und Arbeit in die Befreiung und Veröffentlichung des Datensatz gesteckt. Jetzt musst du noch sicherstellen, dass die Öffentlichkeit das auch mitbekommt. Blogpost und andere Social Media sind super dafür, weil sie günstig sind und sich stark auf das Google-Ranking auswirken.

Optional: Mach’ eine Erstvisualisierung der Daten

Visualisierung und Mapping sind eigene, große Kapitel. Grundsätzlich geht es darum, Charts und Karten zu erzeugen, die man in einen Blogpost einbetten kann. Die Tools, mit denen wir gute Erfahrung gemacht haben und die eine solche Einbettfunktion haben, sind unter anderem Datawrapper, Tableau (für Charts) sowie CartoDB (für Karten).

Schreib’ einen Blogpost

Überleg dir zunächst, für wen du deinen Blogpost schreibst. Einen Journalisten? Eine Programmiererin? Die Open-Data-Community? Wie alt sind sie? Was sind deren Interessen? Warum sollen sie es lesen? Was bringen ihnen die Informationen? Je besser das Bild von deinem Publikum vor deinem inneren Auge, desto leichter schreibt sich der Blogpost.

Die Überschrift und die ersten zwei Sätze sind am wichtigsten. Die Überschrift soll die Leute in den Text ziehen. Du schreibst sie allerdings zuletzt – wenn der Rest fertig ist. Die ersten zwei Sätze fassen den Inhalt des Beitrags zusammen – beantworten die W-Fragen „Wer?“, „Was?“, „Wann?“, „Wo?“ und „Wie?“. Ein Beispiel

„Eine sachliche Debatte über Asyl in Östereich ist überfällig. Deshalb haben wir Daten zum heimischen Asylwesen befreit, gereinigt, und als Open Data zur Verüfgung gestellt.“

In der Folge beschreibe das Wichtigste zuerst, gehe danach in die Tiefe. Erzähl, wie du bei der Datenbefreiung vorgegangen bist. Anhaltspunkte liefert dir dein Forschungsprotokoll. Bette eventuell gemachte Visualisierungen ein. Denke an Zwischenüberschriften und die Formatierungen: Wichtiges fett, Zitate/ direkte Rede, Weiterführende Infos kursiv, Links, *Listen und Aufzählungen.

Schreib am Ende noch, was die Leute machen sollen, nachdem sie deinen Beitrag gelesen haben, z.B. eine Frage beantworten, neue Visualisierungen mit den Daten machen machen, oder nur den Datensatz verteilen.

Verteil’ es auf Social Media

Nicht vergessen: Den Blogpost verteilen, damit es die Welt auch liest – immer mit dem Hashtag #gutedaten: Auf Facebook, z.B. der Open-Knowledge-Österreich-Seite, in den Gruppen Open Data Austria, Open Gov und Open Data.

Wichtig sind auch die Mailinglisten für die österreichische Open-Community bzw. zu Open Science.

Sinn macht es auch, bestimte Multiplikatoren wie z.B. JournalistInnen direkt auf den Blogpost hinzuweisen. Oft sind diese dafür sehr dankbar.

Sind Fragen offen geblieben? Brauchst du Hilfe bei einem Schritt? Schreib’ einen Kommentar unterhalb oder nimm mit uns Kontakt auf.


Creative Commons Lizenzvertrag
Tutorial: Daten visualisieren von Open Knowledge Austria ist lizenziert unter einer Creative Commons Namensnennung 4.0 International Lizenz.

Kommentar verfassen