Wordle für Open Data Dossier

26.10.2011 | Von:
Daniel Dietrich

Was sind offene Daten?

Technische Offenheit und Formate

Eine nachhaltige Infrastruktur offener Daten besteht aus drei Ebenen: Rohdaten, Schnittstellen und Anwendungen. Auf der ersten Ebene werden die Rohdaten zeitnah und in vollem Umfang veröffentlicht. Auf der zweiten Ebene werden diese Rohdaten über Schnittstellen (so genannte API, von englisch "Application Programming Interface") zugänglich gemacht. Auf der dritten Ebene können nun Programme die Daten über diese Schnittstellen auslesen und automatisiert auswerten und weiterverarbeiten. Auf dieser dritten Ebene entstehen die sichtbaren und auch von Menschen nutzbaren Anwendungen, Mashups und Visualisierungen.

Um eine Weiterverarbeitung von Daten über die drei Ebenen hinweg zu ermöglichen, müssen diese in Formaten vorliegen, die von Maschinen / Programmen automatisiert gelesen und weiterverarbeitet werden können. Damit Maschinen Daten auswerten und verarbeiten können, müssen diese erstens in einem standardisierten, offenen und wohl dokumentierten Format vorliegen und zweitens sinnvoll strukturiert sein.

Die Maschinenlesbarkeit eines Datensatzes sollte darauf ausgerichtet sein, die Einbindung in Softwareanwendungen wie webbasierte Mashups oder mobile Apps mit möglichst wenig Aufwand realisieren zu können. Dies setzt neben einer soliden Strukturierung und Auszeichnung mit Metadaten auch das Bereitstellen von Rohdaten zum Download oder von webbasierten Schnittstellen (APIs) für Datenabfragen voraus.

Strukturierte Daten weisen eine eindeutige Datenstruktur auf und können einfach automatisiert, bearbeitet, sortiert und gefiltert werden. In einem strukturierten Datensatz haben die einzelnen Elemente klare Bezeichnungen. Beispielsweise: Name, Typ, Datum, Standort usw. für die einzelnen Spalten einer Tabelle oder einer Datenbank.

Semistrukturierte Daten liegen nicht in Tabellenform vor, sondern sind per Auszeichnung gekennzeichnet und damit ebenfalls einfach automatisiert auslesbar (aber meist auch für den Menschen verständlich). Gängiges Format im Internet ist XML.

Unstrukturierte Daten sind Informationseinheiten wie etwa Schriftstücke, die als Text- oder Bilddatei vorliegen (etwa PDF-Dateien und eingescannte Dokumente). Das "Portable Document Format" (.pdf), ist sehr verbreitet, aber leider gänzlich ungeeignet für offene Daten, da sich die dort enthaltenen Informationen nicht (oder nur mit unverhältnismäßigem Aufwand) maschinell auslesen lassen.

In der Informationstechnologie beschreiben Standards technische Normen und U¨bereinku¨nfte, die in der Praxis eine weite Akzeptanz gefunden haben. Als "offene Standards" werden jene Normen bezeichnet, die fu¨r alle Marktteilnehmer besonders leicht zuga¨nglich und einsetzbar sind und weiterentwickelt werden können. Offene Standards ermöglichen es, alle möglichen Arten von Daten frei und ohne Veränderungen mit anderen zu teilen. Sie verhindern eine Abhängigkeit von einzelnen Herstellern und andere künstliche Barrieren gegen Interoperabilität.

Ein offenes Format ist eine publizierte Spezifikation zum Speichern von Daten in digitaler Form, das ohne rechtliche Einschränkungen genutzt werden kann. Das Vorhandensein von offen einsehbaren Spezifikationen und Quellcode ist eine Voraussetzung für Transparenz und Vertrauen im Bezug auf die eingesetzte Technologie.

Beispiele für offene Formate sind etwa Textdateien, für einfachen Text (.txt); Rich Text Format, für formatierten Text (.rtf); Comma Separated Value, für Tabellen (.csv); Extensible Markup Language, eine erweiterbare Auszeichnungssprache (.xml); JavaScript Object Notation, ein kompaktes Datenformat in für Mensch und Maschine lesbarer Textform zum Datenaustausch zwischen Anwendungen (.json); Scalable Vector Graphics, ein offenes Grafikformat (.svg); Keyhole Markup Language, eine Auszeichnungssprache zur Beschreibung von Geodaten (.kml); Open Document Format, ein international genormter, quelloffener Standard für Dateiformate von Bürodokumenten wie Texten, Tabellendokumenten, Präsentationen, Zeichnungen, Bildern und Diagrammen (.odt, .ods und andere).

Ein Beispiel für nicht offene Formate sind Exceltabellen (.xls), die zwar maschinenlesbar, aber nicht wirklich offen, sondern proprietär sind. Das Format ist Eigentum einer Firma, die dessen Einsatz und Nutzung mit Einschränkungen belegen kann.

Interoperabilität durch Verwendung offener Standards: Mit dem Einsatz offener Standards wird die Verwendung von Formaten angestrebt, welche nicht nur von ausgewählten Programmen gelesen und verarbeitet werden können. Offene Standards gewährleisten die Freiheit, mit verschiedenen Programmen auf die Daten zugreifen zu können, ohne sich in die Abhängigkeit eines Herstellers zu begeben. Software-Tools und Anwendungen können damit für verschiedenste Datensätze aus unterschiedlichen Quellen verwendet werden und somit ihren Nutzen potenzieren. Interoperable Austauschmechanismen zwischen verschiedenen Datenportalen sollten auf Basis von offenen Standards ermöglichen, dass eine dezentrale Veröffentlichung unterstützt wird und darauf aufbauend die Daten in regionalen, nationalen bis hin zu europäischen und internationalen Datenportalen aggregiert werden können.

Aggregierte und strukturierte Daten können über Schnittstelle, auch API (Application Programming Interface) zugänglich gemacht werden. Eine API erlaubt es anderen Softwareanwendungen, gezielt und automatisiert maschinenlesbare Daten abzufragen. So können verschiedene Daten automatisiert miteinander verknüpft und interpretiert werden. Im Sinne einer Infrastruktur für offene Daten sollte eine zur Verfügung gestellte Möglichkeit, Daten über eine Schnittstelle maschinell abzufragen, aber niemals das Zur-Verfügung-Stellen von Rohdaten und/oder von Datenbankexporten, auch als "Bulk Data" bekannt, ersetzen.

Datenaktualität: Die Aktualität offener Daten ist wichtig für den praktischen Nutzwert der auf diesen Daten aufbauenden Anwendungen und damit letztendlich für die Akzeptanz dieser Anwendungen durch den Nutzer. Es sind somit technische und organisatorische Vorkehrungen zu treffen, die eine hohe Datenaktualität gewährleisten.

Creative Commons License

Dieser Text ist unter der Creative Commons Lizenz veröffentlicht. by/3.0 Der Name des Autors/Rechteinhabers soll wie folgt genannt werden: by/3.0
Autor: Daniel Dietrich für bpb.de
Urheberrechtliche Angaben zu Bildern / Grafiken / Videos finden sich direkt bei den Abbildungen.


Dossier

Open Source

Open Source-Software ist das Paradox der Wissensgesellschaft: Programmierer verschenken ihr wertvollstes Gut – und begründen eine soziale Bewegung, die weltweit das Wissen befreien will.

Mehr lesen

Smartphones und Tablets - die Zukunft des Lernens? Im Interview plädiert der Präsident der bpb, Thomas Krüger, für einen sinnvollen Mix alter und neuer Medien, um zukünftiges Lernen erfolgreich zu gestalten. Eine immer größere Rolle werden - nicht nur für mobile Geräte - sog. "Open Educational Resources" spielen.

Mehr lesen auf werkstatt.bpb.de

Dialog

Die Netzdebatte

Netzdebatte ist das Debattenportal der Bundeszentrale für politische Bildung. Das Weblog greift Themen auf, die die Gesellschaft bewegen. Netzdebatte erklärt Hintergründe, bildet Positionen ab und bietet einen Ort zum Diskutieren.

Mehr lesen

spielbar.de

spielbar.de informiert über Computerspiele und erstellt pädagogische Beurteilungen. Pädagogen, Eltern und Gamer sind eingeladen, ihre eigenen Beurteilungen, Meinungen und Kommentare zu veröffentlichen.

Mehr lesen auf spielbar.de