dl030: offene daten

dl030: offene daten

Intro (00:00:00)

Thema des Podcasts (00:00:18)

Willkommen zur dreißigsten Folge beim datenleben-Podcast!
Wir sind Helena und Janine und möchten euch mitnehmen in die Welt der Daten.
Was ist Data Science? Was bedeuten Daten für unser Leben? Woher kommen sie und wozu werden sie benutzt?
Das sind alles Fragen, mit denen wir uns auseinander setzen.
Wer schon immer mehr über Daten und deren Effekt auf unser Leben wissen wollte, ist hier genau richtig.

Thema der Folge (00:00:41)

  • Wir reden mal wieder über offene Daten, aber dieses Mal im Allgemeinen
  • Wofür braucht man das, was kann man damit tun?
  • Wir werden darüber sprechen, wo offene Daten vorkommen und zu finden sind
  • Und uns vor allem mit den Bereichen Forschung und Politik befassen
  • Dabei wird gleich natürlich auch die Ambivalenz im Vordergrund stehen:
  • Was ist an offenen Daten toll?
  • Und welche Probleme können mit offenen Daten zusammenhängen?

Warum ist das Thema wichtig? (00:01:27)

  • Daten werden an vielen Orten erhoben
  • Wir zahlen Steuern, dass Daten erhoben werden, aber wir wollen dann nicht nochmal bezahlen um die nutzen zu dürfen
  • Viele neue Optionen mit offenen Daten möglich
  • Zum Beispiel so etwas, was wir in der Weihnachtsmarktdaten-Folge gemacht haben
  • So bekommt man Informationen, die man aus den reinen Daten nicht bekommen hatte
  • Auch bei Forschungsdaten: wir zahlen öffenltichen Forschung, aber dürfen die Paper nicht lesen ohne dafür zu bezahlen

Einspieler: Wem gehören Daten und wer darf sie nutzen? (00:02:35)

  • Was gibt es eigentlich für ... sagen wir mal Kategorien ... von Daten?
  • Daten des Staates, Daten der Forschung, Daten der Unternehmen oder Privatwirtschaft und Daten der Menschen
  • Der Staat möchte wissen wer lebt hier, wo leben diese Menschen, arbeiten sie, sind sie krankenversichert, etc.
  • Der Staat hat aber auch Daten über andere Dinge, wie viel Geld ihm wofür zur Verfügung steht, wo Straßen verlaufen, welche Unternehmen es gibt, wer oder was wie viele Steuern zahlen muss, wie der Zustand von Autobahnbrücken ist
  • Die Forschung sammelt Daten rund um ihre Entwicklungen und je nach Fachgebiet sind das völlig unterschiedliche Dinge
  • Es werden Experimente gemacht, Dinge ausgewertet, Studien erstellt, Körper untersucht, Werte notiert, Umfragen gemacht etc.
  • Die Unternehmen oder die Privatwirtschaft erfassen Daten, die sich entweder mit ihren Produkten beschäftigen oder mit ihren Kund*innen
  • Denn diese müssen verwaltet werden und sie sollen mehr kaufen
  • Daten der Menschen sind Daten, die wir selbst aktiv oder passiv erheben
  • Wir lassen uns auf Smartphones Gesundheitsdaten anzeigen, benutzen Fitnesstracker, werden von außen getrackt und geben auf die eine oder andere Art und Weise unsere Daten mehr oder weniger freiwillig weiter
  • Die vierte Kategorie ist besonders, denn diese Daten fließen zu großen Teilen an den Staat, die Forschung und an alle Unternehmen, die wir nutzen
  • Aber was bekommen wir eigentlich für Daten zurück?
  • Könnten wir nicht manche Dinge viel besser nachvollziehen, wenn wir in der Lage wären unsererseits Einblicke zu bekommen?
  • Wem welche Daten gehören und wer sie wann unter welchen Umständen nutzen darf – das sind zwei der große Fragen, wenn es um Daten geht
  • Und diese sind garantiert nicht einfach zu beantworten, gerade dann nicht, wenn es um Privatssphäre, Demokratie, Fortschritt und Gesundheit geht

Warum sind Daten wichtig? (00:05:22)

  • Im Einspieler haben wir vier arten von daten unterschieden: staatliche Daten, Forschungsdaten, Unternehmensdaten und Daten, die wir selbst in unserem Alltag aktiv oder passiv erzeugen
  • Wir gucken uns vor allem jetzt Daten vom Staat und der Forschung an
  • Aber erstmal generell nochmal kurz, warum Daten überhaupt wichtig sind:
  • Überblick, Analyse, Wissen
  • Daten erzählen viel mehr, als uns bewusst ist: Erkenntnisse werden generiert, an die vorher gar nicht gedacht wurde, dass die in den Daten stecken können
  • Es kann aber auch ein zu Viel an Daten geben und diese können auch überschätzt werden
  • Daten sind ein pool, aus dem Wissen generiert werden kann
  • Dieses Wissen kann benutzt werden: wer Wissen hat, kann handeln
  • Ggf. auch andere manipulieren – es geht um die Deutungshoheit über die Daten
  • Offene Daten können das verhindern, weil auch andere mit den gleichen Daten arbeiten können und so Ergebnisse prüfen können
  • Wir hätten gerne offene Daten, damit sie für Einzelne oder die Gesellschaft nutzbar werden
  • Auch für Dinge ohne kommerzielles Interesse

Was sollten offene Daten mitbringen? (00:08:26)

  • Nicht nur auf Ergebnisse Zugriff haben, sondern auch auf Rohdaten
  • Die ermöglichen unabhängige Überprüfungen und bieten Optionen, Themen mit einem anderen Blickwinkel zu betrachten
  • Dafür sind auch maschinenlesbare Daten nötig, damit man weiterarbeiten kann
  • Es gibt Daten, auf die niemand einen Anspruch erheben sollte oder kann
  • Theoretisch kann manche Daten jede*r selber erheben: Zum Beispiel Kartendaten
  • Der Detailgrad der Daten ist aber von den professionell erhobenen höher
  • Aber es gibt keinen Grund, diese nicht allen zur Verfügung zu stellen

Sollten alle alles wissen können? (00:10:03)

  • Ist es wirklich gut, wenn alle alles wissen können? Welche Probleme gibt es bei offenen Daten?
  • Keine abschließende Antwort auf die Frage, ob es gut ist, wenn alle alles wissen können
  • Ist auch eher eine persönliche Meinung
  • Privatsphäre ist gut, es gibt irgendwo eine Grenze
  • Probleme können aber auch sein: Wie wurden die Daten erzeugt?
  • Eventuell nicht sinnvoll bereit gestellt: kein Kontext, wie wurden die daten erhoben?
  • Kenne dein Messverfahren ist hier auch wichtig
  • Gerade bei Rohdaten ist die Gefahr hoch, dass es auch schief gehen kann
  • Beispiel: Unfallstatistik-Folge zu Unfällen mit Todesfolge
  • Wenn unklar ist, wie die Schuldzuweisung entsteht, ist unklar, ob die Statistik die richtige Aussage trifft
  • Es muss gut überlegt werden, welche Daten wirklich offene Daten sind und wann offene Daten vielleicht auch zu personenbezogenen Daten werden können, die schützenswert sind
  • Aber gleichzeitig will man vielleicht für Vertragsverhandlungen auch wissen, wem zum Beispiel eine Firma gehört
  • Dafür gibt es das Handelregister, das vor kurzem sogar online gestellt wurde
  • Problem: Welche Daten stecken da alle drin?
  • Lilith Wittmann hat sich das angeguckt: Personenbezogene Daten im #Handelsregister
  • Als sie dazu zu twittern begann, hieß es noch Personalausweiskopien seien nicht gefunden worden, das hat sich, glaubt Helena, bis heute geändert
  • Auf jeden Fall enthalten: große Menge Ausweisnummern, vermerkte Meldeadressen und mehr
  • Wichtige Frage: Welche Daten wären wirklich notwendig, dass darauf zugegriffen werden kann und welche nicht?
  • Aber wie sind hier die juristischen Implikationen, da die Daten ja auch vorher schon gegen Geld einsehen konnte
  • Jedenfalls ein Beispiel dafür, dass jetzt etwas online gestellt wurde
  • Beschränkt ist der Zugriff durch Begrenzung wie viel runtergeladen werden kann und dass es nicht durchsuchbar ist
  • Wäre cool, könnte es beliebig weiterverarbeitet werden, aber vorher müsste das "aufgeräumt" werden – eine Schutzebene mehr für manche Daten wäre gut
  • Beispiel nochmal Karten: Gebäudedate oder Straßendaten sollten offen sein
  • Aber wer konkret da wohnt, ist eine andere Sache -> Schutz von personenbezogenen Daten

Welche staatlichen offenen Daten gibt es – und welche nicht? (00:15:36)

Gesetz für die Nutzung von Daten des öffentlichen Sektors (Datennutzungsgesetz - DNG) § 1 Grundsatz der offenen Daten
(1) Daten, die in den Anwendungsbereich dieses Gesetzes fallen, sollen, soweit möglich, nach dem Grundsatz „konzeptionell und standardmäßig offen“ erstellt werden.
(2) Eine Bereitstellungspflicht oder ein Anspruch auf Zugang zu Daten wird mit diesem Gesetz nicht begründet.
Quelle

Öffentliche Stellen und Unternehmen der Daseinsvorsorge müssen die Nutzung hochwertiger Datensätze in maschinenlesbarem Format über geeignete Anwendungsprogrammierschnittstellen und, falls technisch erforderlich, als Massen-Download ermöglichen. Quelle

  • In wie fern das der Fall ist und hier schon umgesetzt wird, muss man natürlich vielleicht einfach mal genauer hingucken oder jede*r sich selbst fragen
  • Massendownload hieße, alles auf einmal ohne Beschränkung runter zu laden
  • Das Datenportal für Deutschland Open Government: Verwaltungsdaten transparent, offen und frei nutzbar
  • GovData ist noch etwas leer und vielleicht auch unübersichtlich
  • Qualität, Umfang, Inhalte weist alles noch einige Lücken auf
  • Führt uns aber zu der Frage, welche staatlichen offenen Daten es denn gibt und welche eigentlich nicht?
  • Kartendaten wären ja schön
  • Beispiel: In Deutschland müssen (teilweise) Windräder einen Abstand von 1000 Metern zu Wohnbebauung haben
  • Wären solche Flächen tatsächlich ausgewiesen, könnte dies überprüft werden
  • Wie viele Orte gibt es dann noch, wo Windräder hin könnten?
  • Dann könnte viel besser diskutiert werden, ob die Flächen ausreichend sind
  • Jemand fand auf einer staatlichen Webseite mal einen Datensatz und stellte diesen online
  • Jemand anderes ergänzte die Gebäudedaten
  • Das fand das Bayrische Landesamt für Digitalisierung, Breitband und Vermessung nicht gut und es wurde juristisch
  • Leider nichts Neues dazu gefunden, falls da wer mehr Erkenntnisse hat, gerne Bescheid sagen
  • Aktuell stellt Bayern aber lustigerweise selbst Geodaten kostenlos zur Verfügung bis Ende des Jahres
  • Grund ist die Grundsteuer, für die aktuell Eigentümer neu Sachen einreichen müssen
  • In Braunschweig werden Verkehrsschilder und Lichtsignalanlagen von der Bellis GmbH betreut
  • Problem: Die Stadt kennt nicht die exakten Positionen dieser Schilder und Anlagen
  • Die Daten gehören Bellis und die Stadt hat sie nicht mitgekauft
  • Offene Daten wären in diesem Fall auch interessant für die Kommune gewesen 😀
  • Soll zeigen: Ein gutes offene Daten Portal wäre auch für die Menschen, die in den Kommunen arbeiten eine gute Sache
  • Es gab in Braunschweig auch mal eine Karte für Schäden und Gefahrenstellen auf Radwegen, die von Benutzer*innen zusammengetragen und dann auch von der Stadt benutzt wurde
  • Auch bei so etwas könnten gute Datenportale in beide Richtungen arbeiten
  • Wie kriegt man mehr Daten aus dem Staat heraus?
  • Zum Beispiel mit dem Informationsfreiheitsgesetz
  • Informationsfreiheit: ein Recht auf Zugang zu amtlichen Informationen
  • Es gibt ein Informationsfreiheitsgesetz auf verschiedenen Ebenen, zum einen auf der Bundesebene
  • Aber auch auf Länderebene, hier sind allerdings 3 Bundesländer noch immer nicht mit dabei: Niedersachsen, Bayern und Sachsen
  • Innerhalb dieser Länder kann es aber auch auf kommunaler Ebene eigene Informationsfreiheitssatzungen geben
  • In niedersachsen sind das übrigens Göttingen und Braunschweig und inzwischen noch 9 andere Kommunen
  • Was bundesweit angeht, ist Frag den Staat übrigens auch eine super Anlaufstelle
  • Auf dem portal bekommt ihr einstiegshilfen ins "datenbefreien"
  • Ihr könnt nachlesen, welche Anfragen bereits gestellt wurden oder mit Hilfe von Frag den Staat auch eigene Anfragen stellen
  • Problem mit diesen Daten: Oft als PDF und müssen mühsam erfasst werden für Analysen
  • Deswegen ist Maschinenlesbarkeit ein wichtiger Punkt
  • Der andere ist die Aktualität, wenn Daten zum Beispiel nur jährlich veröffentlicht werden
  • Schnittstellen müssten auch Live-Daten bereit stellen, damit gute Analysen möglich sind
  • Aber einige Kommunen machen das tatsächlich schon

Wie steht es um offene Daten in der Forschung? (00:33:29)

  • Helena, wie steht es denn um offene Daten in der Forschung?
  • Ferschung ist oft aus Steuergeldern finanziert, aber Ergebnisse sind nicht allgemein verfügbar
  • Ein Ansatz der sich inzwischen immer weiter verbreitet, nennt sich Open Access (offene Verfügbarmachung von Ergebnissen)
  • Das ist nicht exakt das gleiche wie Open Data (Daten, aus denen die Ergebnisse generiert werden)
  • Leider hat sich historisch die gedruckte Veröffentlichung durchgesetzt, was eben mit Kosten verbunden ist
  • Digital ist eine viel bessere und günstigere Verbreitung möglich
  • Aber in der Wissenschaft hängt Reputation an den Veröffentlichungen und die angesehenen Journale sind oft noch nicht Open Access
  • Gibt es bei Förderern wie der Deutschen Forschungsgemeinschaft oder in der EU Open Data Policys?

Im Januar 2006 hat der Hauptausschuss der DFG Richtlinien für die Bereitstellung von Ergebnissen aus DFG-geförderten Projekten im Open Access verabschiedet, die 2020 aktualisiert worden sind. Die DFG erwartet die Veröffentlichung von Ergebnissen aus den Projekten in geeigneten Open-Access-Zeitschriften oder die Bereitstellung bereits publizierter Aufsätze über Open-Access-Repositorien (s. DFG-Vordruck 2.00 – 1/20, S. 41). Quelle

The Commission supports open access, specifically in its funding programmes. Quelle

  • Beides scheint das zu befürworten und dazu aufzurufen, aber nicht mit letzter Konsequenz zu verlangen
  • Wobei "Unterstützung" auch finanzielle Unterstützung bedeuten wird, was schonmal ein Anfang ist
  • Wünschenswert wäre aber, wenn Förderer das festlegen, dass staatlich geförderte Daten Open Access sein müssten
  • Problem mit offenen Daten in der Forschung: Welche Daten machen Sinn, dass sie offen weiterverteilt werden?
  • Das sind sehr viele Informationen, denn es kann viel gemessen werden, aber auch Rahmenbedingungen müssen gründlich dokumentiert werden
  • Und manche Dinge zu verschriftlichen kann schwierig oder sehr aufwändig sein
  • Nicht alle Daten sind vom Aufwand her sinnig zur Verfügung zu stellen
  • Frage nach Relevanz ist wichtig
  • Medizinische Studien sollten zum Beispiel offen sein
  • Ein Paper hat Gründe für und gegen offene Daten dargelegt und zwar auf der individuellen Seite
  • Data sharing as social dilemma: Influence of the researcher’s personality
  • Jüngere Wissenschaftler wollen eher Sachen, auch Daten, offen publizieren, ältere nicht
  • Für ein Individuum in der Wissenschaft ist Reputation wichtig, und das geschieht bisher Hauptsächlich dadurch, dass man Paper veröffentlicht und diese zitiert werden
  • Soziales Dilemma: Wenn ein wissenschaftler Daten für sich behält, kann nur der daraus veröffentlichungen generieren, und er muss weniger Zeit fürs Daten veröffentlichen investieren und kann stattdessen Paper schreiben
  • Für die Gesellschaft wäre es lohnenswerter, wenn mehr Daten veröffentlicht würden, denn wenn alle die Daten für sich behalten, bleiben auch Erkenntnisse auf der Strecke
  • Zweitverwertung von Daten ist spannend, Beispiel: Exoplaneten im Sonnensystem konnten auch durch historische Daten nachgewiesen werden
  • Offene Daten können also auch zu neuen Erkenntnissen führen
  • Empfehlung aus dem Paper:
    • Klare Regeln der Geldgeber zu Data Sharing
    • Unterstützung der Arbeitgeber dabei, Daten zu sharen (Arbeitsaufwand)
    • Ein dritter Vorschlag bezieht sich auf Beschränkte zugänge, die Empfehlung teilt Helena nicht
  • Weitere Frage ist auch: Zu welchem Zeitpunkt sollten Daten offen zur Verfügung gestellt werden?
  • Einige Satellitendaten sind offen verfügbar (Beispiel: Sentinel der ESA)
  • Menschen, die aber zum Beispiel mit dem James Webb Weltraumteleskop arbeiten wenden viel Energie und Arbeits auf, um ihre Daten zu erhalten
  • Wären die Daten sofort öffentlich, wären vielleicht andere mit der Publikation schneller und würden "den ganzen Ruhm" ernten
  • Lösungen für so etwas sind Sperrfristen: 1 Jahr haben Forschende Zeit selbst zu veröffentlichen, danach sind die Daten dann öffentlichen
  • Bei Studien wäre es gut, würden Daten mit veröffentlicht, weil dann die Studien besser überprüft werden könnten
  • Stichwort: Reproduktionskrise in der Psychologie
  • Nur weil es eine Studie gibt, ist es nicht gesichert, dass das Ergebnis den Tatsachen entspricht
  • Offene Daten könnten dabei helfen
  • Bisher wird es mit Metastudien ausgeglichen, darüber hatten wir in der Drogenkonsum-Folge gesprochen
  • Offene Daten erhöhen Nachvollziehbarkeit und ermöglichen Zweitverwertungen

Mit welchen offenen Daten haben wir schon gearbeitet? (00:50:48)

  • Luftdaten: Selbst Daten erhoben, Sensorn Community, Umwelt Bundesamt
    • UBA Daten waren aber nicht wirklich akkurat zu benutzen - wie wurde gemittelt?
    • Keine Rohdaten, nur eine Auswahl
  • Kommunale Daten (Unfallstatistik, Weihnachtsmarktbesuchszahlen)
  • Statistisches Bundesamt Deutschland
  • Twitterbots: Tsunami-Warnungen, Erdbeben und einige mehr
  • Daten händisch aus Wikipedia extrahiert
  • Wir packen euch unter weiterführende links nochmal ein paar Portale für offene Daten rein
  • Was vielleicht noch zu berücksichtigen ist, wenn ihr mit offenen Daten arbeitet
  • Achtet auf die angegebenen Lizenzen
  • Nur weil etwas offen zugänglich ist, heißt es nicht, dass ihr alles einfach so nutzen könn
  • guckt nach, ob es Lizenzen gibt, die zum Beispiel die Nennung des Urhebers der Daten verlangen etc.
  • Auch bei Offenen Daten ist Quellenarbeit sehr wichtig

Fazit (00:54:23)

  • Mehr und leichter zugängliche offene Daten sollet es geben
  • GovData als Plattform ist schonmal gut, weil das Ziel stimmt langfristig mehr offene Daten zu haben
  • Wir haben strukturelle Probleme, weil Daten jahrzentelang anders erhoben worden
  • Digitalisierung muss noch weiter voranschreiten dafür
  • Wir müssen uns in jedem Fall Gedanken machen, wie wir mit welchen Daten umgehen, als Menschen, als Gesellschaft oder eben auch der Staat
  • Nicht alles, was der Staat weiß, sollte auch jede*r andere wissen
  • Offene Daten sind wichtig, um auch informierte Entscheidungen treffen zu können
  • Zugänglichkeit und Verfügbarkeit von Daten müssen auch im Blick sein und die daraus resultierenden Konsequenzen

Nächste Folge: Noch im Oktober (00:57:18)

  • Wir wissen noch nicht genau, was es thematisch wird
  • Diese Folge hier wurde wegen Urlaubszeit etwas früher aufgenommen, deswegen haben wir noch keine Zeit gehabt, uns konkrete Gedanken zu machen, was es gibt

Call to Action (00:57:38)

  • Wenn ihr uns weiter hören möchtet, folgt uns auf Twitter unter @datenleben & Mastodon unter @datenleben@chaos.social
  • Oder besucht unsere Webseite: www.datenleben.de
  • Hinterlasst uns gerne Feedback, wir würden uns darüber sehr freuen
  • Ihr könnt uns als Data Scientists auch Buchen für Analysen oder Projekte
  • Habt ihr Fragen oder Themen, die euch interessieren? Dann schreibt uns!

Outro (00:58:19)

Schlagworte zur Folge

Offene Daten, Open Data, Open Access, Informationsfreiheit, Politik, Forschung, Wissenschaft

Quellen

Weiterführende Links


Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert