Befreie Daten

Dieses Tutorial erklärt dir Schritt für Schritt, wie du Daten findest, säuberst und strukturierst.

Solltest du bereits saubere Daten haben, kannst du hier nachlesen, wie du sie am besten strukturiert veröffentlichst.

Sollten bei einem Schritt Fragen auftauchen, kannst du uns jederzeit kontaktieren.

Such’ dir einen Datensatz

Gute Taten für gute Daten konzentriert sich auf Datensätze, die Österreich und die Menschen, die hier leben, betreffen. Das sind zum Beispiel Wahlergebnisse, Subventionen, Statistiken, Budgets und vieles andere mehr.

In diesem Spreadsheet sammeln wir laufend Datensätze und Datenbanken, die nicht im Sinne der Offen-Definiton veröffentlicht wurden. Such dir hier einen Datensatz, der dich interessiert.

Du kannst dir natürlich auch woanders einen Datensatz suchen, der diesen Kriterien entspricht. Dieses Tutorial zeigt dir Wege, wie du interessante Daten findest.

Leg’ dir ein Protokoll an

Bei Datenbefreiungen kann man sich oft in den Details verzetteln. Deshalb ist es wichtig, immer das eigene Ziel vor zu Augen zu haben. Schreib dir am besten auf ein Blatt Papier, das immer neben dir liegt:

  • Was ist mein Ziel?
  • Wie soll das Ergebnis aussehen? Tipp: Zeichne es dir auf.

Weiters ist es zentral, zu notieren, was du machst. Schreib dir auf, woher du die Daten hast, was sie beschreiben und welchen Ort oder Zeitraum sie abdecken. In der Folge solltest du auch jeden einzelnen Bearbeitungsschritt dort protokollieren.

Hol’ dir die Daten

Daten können in verschiedenen Formaten vorliegen. Gut arbeiten lässt sich mit maschinenlesbaren Formaten wie CSV-, Excel- oder JSON-Dateien. Oftmals musst du Daten erst in diese Form bekommen.

Wenn Daten in einem PDF stecken oder direkt auf der Website stehen, ist es etwas komplizierter. Manchmal kannst du sie von dort kopieren, oft aber brauchst du ein weiteres Programm, einen so genannten Scraper. Die School of Data hat hilfreiche, leicht verständliche Tutorials für Scraping veröffentlicht.

Um Daten aus PDFs zu bekommen, haben wir gute Erfahrung mit dem kostenpflichtigen Abby FineReader Online gemacht. Aber es gibt kostenlose Alternativen.

Säubere die Daten

Kein Datensatz ist perfekt, fast immer finden sich Fehler: Namen haben unterschiedliche Schreibweisen, Adressen verschiedene Formate, einzelne Datenpunkte fehlen, …

Folge diesem Tutorial, um zu lernen, wie man Daten säubert.

Mach einen Realitätscheck: Vergleiche deine Daten mit der Ursprungsquelle. Überleg’ dir auch, ob die Daten wirklich Sinn machen.

Wieder ist es wichtig: Dokumentiere jeden Schritt, den du machst, in deinem Datenbefreiungsprotokoll.

Gratulation, wenn du die Daten gesäubert und in ein weiterverwendbares Format gebracht hast. Jetzt kannst du sie veröffentlichen. Wie das geht, das steht hier.

 

Creative Commons Lizenzvertrag
Tutorial: Daten befreien von Open Knowledge Austria ist lizenziert unter einer Creative Commons Namensnennung 4.0 International Lizenz.

Kommentar verfassen