dl001: data science
Shownotes DL001: Data Science
Intro (00:00:00)
Thema des Podcasts und der Folge (00:00:18)
Willkommen zu unserer ersten Folge beim datenleben-Podcast!
Wir sind Helena und Janine und möchten euch mitnehmen in die Welt der Daten.
Was ist Data Science? Was bedeuten die Daten für unser Leben? Woher kommen sie und wozu werden sie benutzt?
Das sind alles Fragen, mit denen wir uns auseinander setzen werden.
Wer schon immer mehr über Daten und deren Effekt auf unser Leben wissen wollte, ist hier genau richtig.
In unserer ersten Folge möchten wir etwas allgemeiner in Data Science einführen.
Wir möchten euch zeigen, warum Data Science ein wichtiges Thema ist, was ein Data Scientist wie Helena zum Beispiel ausmacht und wie die Arbeit eines Data Scientist aussieht, vor allem wie vielfältig sie ist.
Vorstellung (00:01:03)
Wer ist Helena? (00:01:03)
- arbeitet freiberuflich als Data Scientist
- hat Physik studiert und in experimenteller Physik promoviert, sie bereitet sich auf ihre Disputation vor
- sie ist Teil der Hackercommunity, hat den Braunschweiger Hackerspace Stratum0 mitgegründet
Wer ist Janine? (00:03:52)
- promoviert in Literaturwissenschaft zum Thema Wissenschaft und Technik in der Gegenwartsliteratur
- wissenschafts- und technikaffin und interessiert sich für Themen rund um Naturwissenschaft, Datenschutz und digitale Gesellschaft
- natürlich aber vor allem für Bücher und auch kreative Dinge mit allen möglichen Materialien und Techniken
Warum ist Data Science ein wichtiges Thema? (00:04:42)
- Data Science ist jetzt schon wichtig und wird in den kommenden Jahren immer wichtiger werden
- Immer mehr Daten werden erfasst und stehen zur Verfügung, um benutzt zu werden
- Daten werden uns mittels Statistiken ständig gezeigt, in den Nachrichten, Sozialen Medien und verschiedenen anderen Formaten
- Oft fehlt der Kontext: Woher kommen die Daten, was sagen die Daten selbst und wofür werden sie vielleicht benutzt?
- Statistik ist oft schwer zu verstehen: "Traue keiner Statistik, die du nicht selbst gefälscht hast."
- Man muss sich immer fragen, wie Daten eigentlich erhoben werden, um zu wissen, welche Schlüsse man aus Statistiken ziehen kann
- Grundthese und unser Motto: Kenne dein Messverfahren!
- Beispiel Rauschprofil von Kameras: Hat eine Kamera in einer physikalischen Messung etwas Bedeutendes gezeigt oder war es nur ein Artefakt der Kamera?
- Daten und die Methode ihrer Erhebung müssen immer hinterfragt werden
Erzählung: Wenn ein Data Scientist nicht schlafen kann (00:06:53)
- Mit Data Science wird Wissen gewonnen
- Eine Fragestellung oder ein Problem braucht eine Lösung
- Daten erfassen über das Problem (Schlafmangel) und seine Rahmenbedingungen (Verhalten, Ernähurung, Stimmung)
- Daten korrelieren: Schlafmangel mit Verhalten, Ernährung und Stimmung abgleichen
- Aus den Beobachtungen Schlüsse ziehen
- Korrelation ist noch nicht Kausalität: den Blick weiten und auch die Daten anderer Tage angucken, gezogene Schlüsse überprüfen
- Kausalität im Experiment überprüfen: Rahmenbedingungen verändern und neue Daten erfassen
- Ablesen, ob sich Hypothesen bestätigt haben, ggf. erneut anpassen und Daten sammeln
- Am Ende können auf Basis von Daten Entscheidungen getroffen werden
Was ist Data Science? (00:10:02)
- Datenerfassung: Mikro, Kamera, Umfragen, Bewegungsprofile, Nutzerverhalten
- Datenanalyse: klassisch mit Statistik, Text aus Tonaufnahmen extrahieren, Objekterkennung auf Fotos
- Maschinelles Lernen, wird bereits manchmal als Künstliche Intelligenz bezeichnet, ist aber noch nicht als solche zu verstehen
- Eine spezielle Form des Maschinellen Lernens sind Neuronale Netze
- Programmieren -> Hackermentalität
- Statistik zu können reicht nicht aus, man muss auch programmieren können, um etwa Schritte zu automatisieren, die sich wiederholen
- Beispiel: Wildtierkamera
- Datenanalyse passiert schon bei der Datenerfassung: die Kamera soll nur auslösen, wenn ein Tier vor der Kamera ist
- Wenn die Kamera schließlich aus dem Wald geholt wird, geschieht die umfassende Analyse: Welche Tiere wurden fotografiert?
- Wie oft sind an diesem konkreten Ort diese Tiere erfasst wurden und zu welcher Zeit?
- Daten mit anderen Kamerastandorten in Verbindung bringen und über mehrere Jahre betrachten
- Zeigt die Ausbreitung und die Anzahl einer Population beobachteter Tierarten (Beispiel Ansiedlung Luchse im Harz)
- Mittels Maschinellem Lernen müssen keine Menschen die umfangreichen Bildsammlungen auswerten, Auswertung wird automatisiert
- Software erkennt das Tier
- Das Trainieren des Programms ist aufwändig, die Anwendung dann aber nicht mehr, sie erleichtert viele Arbeitsschritte durch Automatisierung
Wofür Data Science? (00:17:15)
- Ziel von Data Science: informierte Entscheidungen treffen
- Data Science generiert Daten und daraus gewinnen wir Wissen über die Welt um uns herum
- Dieses Wissen hilft uns zu entscheiden, z.B. wie Technik um uns herum funktionieren soll, welche Ziele sie haben kann
- Firmen beauftragen Data Scientists mit Datenerfassung und -analysen, um eine Geschäftsstrategie zu entwickeln
- Beispiel Glasfaserkabel: Ein Unternehmen möchte wissen, in welcher Stadt sie mit dem Ausbau von Glasfaserkabeln anfangen sollten
- Beispiel Diskriminierung: Auch gesellschaftliche Aspekte lassen sich aus Daten ablesen, wie und wo findet etwa Diskriminierung statt?
- Beispiel Statistiken: Wahlumfragen verschiedener Institute fallen immer etwas anders aus, zeigt, dass es auch drauf ankommt, wer Daten sammelt und wie er sie auswertet
- Wahlstatistiken können dabei auch den Effekt haben, sich auf Wahlentscheidungen von Wähler*innen auszuwirken
- Das kann dabei völlig unbewusst passieren, oder bewusst, weil man sich etwa an der 5%-Hürde orientiert
- Es ist auch immer die Frage, wer die Daten mit welchen Hintergrund analysiert
- Beispiel Kredite: Betrachten übervorsichtig ihre Daten und neigen dazu die Vergangenheit zu reproduzieren (alte Klischees haben Bestand, Gruppen werden ausgeschlossen)
- Klassisches Beispiel ist hier auch die SchuFa
- Beispiel Postleitzahlen: Beim Einkaufen werden wir nach Postleitzahlen gefragt, das kann verschiedene Effetke haben
- Werbung verteilen: Reichweite messen, wo hat Werbung zu mehr Kunden geführt, woher kommen Kunden, welche Werbung funktioniert?
- Postleitzahlennutzung durch Dritte: Institutionen kaufen die Datensätze auf und verkaufen sie weiter, z. B. an Kreditinstitute
- Diese können dann sehen, ob ein Kunde in einem Stadtteil mit hoher Kaufkraft lebt und ihre Entscheidung über Kredite daran binden
- Data Science spielt gerade beim Umgang mit personenbezogenen Daten eine große Rolle, gerade auch im Kontext Diskriminierung
- Zum Thema Diskriminierung durch Daten ist bereits eine Folge in Planung
Was macht Helena als Data Scientist konkret? (00:22:50)
- Die Arbeit besteht aus sehr viel Softwareentwicklung
- Für Kunden, die Daten vorliegen haben, werden eigene Lösungen entwickelt
- Dabei werden verschiedene statistische Modelle entwickelt oder implementiert
- Beispiel Wetterdaten: Projekt für das Europäische Zentrum für mittelfristige Wettervorhersagen (EZMW) zusammen mit einer Designerin
- Ziel war es aus den Daten eine Darstellung zu entwickeln, die nicht verschweigt, dass Wettervorhersagen unsicher sind
- Konzept entwickelt, wie man darstellen kann, mit welcher Wahrscheinlichkeit eine Wetterprognose für einen bestimmten Tag zutrifft
- Datenbasis des EZMW genutzt: Sie berechnen immer 50 Szenarien mit leicht verschiedenen Werten aus, die Wahrscheinlichkeit liegt nur bei 30%
- Ergebnis war eine Darstellung, die verständlicher die Wahrscheinlichkeit von Wettervorhersagen vermitteln kann
- Leider ist der Dienst nicht mehr online, aber auf GitHub kann man sich die grafischen Darstellungen dazu ansehen
- Arbeitsalltag eines Data Scientist
- Konkrete Aufgabenstellung, die man zu bearbeiten hat, oft innerhalb eines Teams, mit dem man sich besprechen muss
- Basis ist oft ein Testdatensatz, an dem man entwickeln kann: Algorithmen, Auswertemethoden und Analysen testen oder grafische Darstellungen und Plots
- Testdaten verhindern, dass Geschäftsgeheimnisse oder personenbezogene Daten an Data Scientists ausgegeben werden müssen
- Nachteil ist, dass Testdaten oft andere Eigenschaften haben, sodass ein späterer Testlauf mit echten Daten oft zu Bugs (Fehlern) führt
- Spannend an Data Science: Neue Rätsel und Logik Puzzle lösen, wo war die Annahme falsch, woran hat man nicht gedacht, was passiert mit den Daten?
- Beispiel Adressdaten: wenn man online einkauft, muss man oft seine Adresse angeben, die Eingabemaske kann schon zum Problem werden
- Fehlerquellen sind Sonderzeichen oder Adressen ohne Straßenangabe und Hausnummer oder internationale Adressen (nicht einheitlicher Aufbau von Adressdaten)
- International verschickte Pakete sind daher anfällig für Fehler in der Datenerfassung und -ermittlung
- Kaputte Adressdaten können Menschen (Paketzusteller, Paketshopmitarbeiter) zum Glück oft ausgleichen können, Drohnen wären damit vermutlich überfordert
- Data Scientists haben oft Verschwiegenheitsverpflichtungen, deswegen kann Helena nicht wirklich über aktuelle Projekte reden, an denen sie arbeitet
Was muss man als Data Scientist können? (00:35:41)
- Muss man programmieren können? Wie sehr muss man sich im IT-Bereich auskennen?
- Im Bereich Statistik oder Mathematik kommt es nicht so sehr auf das Programmieren an, grafische Programme wie Tableu können einem das ein bisschen abnehmen
- Das wären dann aber für Helena eher Statistiker und keine Data Scientists
- Für Helena gehört zu Data Science neben Statistik ganz klar auch das Programmieren, dass man Ideen umsetzen kann
- Um wirklich sicher mit Statistik umgehen zu können, reicht es nicht, nur mal ein Buch darüber gelesen zu haben, man sollte es schon im Studium gehabt haben
- Man muss verschiedene Anwendungsbereiche können und kennen, sodass man die je nach Fall anwenden kann
- Es wird von den meisten Data Scientists erwartet, dass sie schon sehr viel gesehen haben und das Ganze in Software umsetzen können
- Ein Data Scientist muss sich in das Thema oder Tätigkeitsfeldes des Kunden einarbeiten und ein Verständnis für das wirtschaftliche Interesse des Kunden haben
- Beispiel Flugverspätungen: Es gibt bestimmte Kenngrößen wie Flugverspätungen dargestellt werden
- Man muss diese Kenngrößen verstehen, damit die Analsysen diese Kenngrößen ausliefern
- Und man muss verstehen, wo Probleme auftreten können, die das Ergebnis eventuell verzerren
- Ein Data Scientist muss viel Interesse, Verständnis und Logik mitbringen und bereit sein sich in viele neue Bereiche hineinzudenken
- Neue Projekte sind daher immer spannend, weil man immer mit neuen Fragestellungen konfrontiert wird
- Manchmal muss man aber auch einfach nur eher unspannende Dinge abarbeiten, die gut bezahlt werden
- Was ist der Unterschied zwischen Data Scientists, Data Analysts und Data Engeniers?
- Helena unterscheidet für sich nicht nach solchen Kategorien und zweifelt daran, wie zielführend das ist
- In ihrer Praxis hat das bisher keine Rolle gespielt
- Für Helena liegt der Reiz in der Vielseitigkeit, daher ist sie auch Freiberuflerin, weil sie so immer mit neuen Aufgaben konfrontiert wird
- Sie kann natürlich nur für sich selbst sprechen
Fazit (00:42:12)
- Data Science ist eine Disziplin, deren Ziel es ist, Erkenntnisse zu gewinnen und dafür Daten zu sammeln und zu verarbeiten
- In den nächsten Folgen werden wir dann schauen, was es für Varianten gibt
Nächstes Thema: Coronadaten am 25.07.2020 (00:43:30)
- Im Moment erleben wir die Covid-19-Epedemie
- Wir sind keine Epidemiologen, aber wir wollen einfach mal über die jetzt anfallenden Daten sprechen
- Jeder spricht über Fallzahlen, Sterblichkeit, Übersterblichkeit und Ansteckungswahrscheinlichkeiten
- Was gibt es für Daten? Was gibt es für Fallstricke mit diesen Daten? Wie kann man sie sinnvoll einordnen?
- Aber wir wollen keine inhaltliche Aussage treffen, sondern eher Muster beschreiben
- Wir kriegen jeden Tag neue Werte und Zahlen präsentiert und manche fragen sich: Worauf muss ich da achten?
Call to Action (00:43:40)
- Wenn euch unsere erste Folge gefallen hat, empfehlt sie weiter und folgt uns
- Twitter unter @datenleben
- Webseite: https://www.datenleben.de/
- Schreibt uns bei Fragen oder Themenvorschlägen!
Schlagworte zur Folge
Data Science, Messverfahren, Maschinelles Lernen, Berufsfeld Data Science, Arbeitsalltag
Quellen
- Wikipedia: Liste geflügelter Worte –Traue keiner Statistik, die du nicht selbst gefälscht hast
- GitHub, ktrask: ESOWC-2018-visualisation
Weiterführende Links
- Stratum0
- DLF Kultur: Zusammenhang Postleitzahlen und Kredite
- Wikipedia: Postleitzahlen in der Privatwirtschaft
- Antidiskriminierungsstelle des Bundes: Diskriminierungsrisiken durch Verwendung von Algorithmen
- Süddeutsche Zeitung: Wahlumfragen sind ein Problem für die Demokratie
- Bundeszentrale für politische Bildung: Wahlkabine zum Thema Wahlumfragen, bpb-Podcast zur Bundestagswahl 2017
- Deutscher Bundestag, Wissenschaftliche Dienste: Einfluss vonMeinungsumfragen und Demoskopien aufWählerverhal-ten und Wahlergebnisse
- Luchsprojekt Harz
- Wikipedia: Maschinelles Lernen
- Wikipedia: Data Science
3 Replies to “dl001: data science”
Spannender Auftakt!
Schade, wenn gerade konkrete Beispiele nicht mehr online sind.
Themenvorschlag: Analyse von Open Data (z.B. http://opendata.cern.ch/ )
Es freut uns, dass unser Auftakt schonmal für Spannung sorgt. (:
Deinen Themenvorschlag gucken wir uns gerne näher an.
Nur ein Hinweis zur nächsten Folge: Thematisch hat sich auch MaLeNe mit den angesprochenen Mustern befasst.
Z.B. unter: https://mathematik-lehr-netzwerk.de/web-seminar-corona-visualisiert-datenanalyse-im-kontext-der-pandemie/
Die Materialien sollten überwiegend dort im Archiv verfügbar sein.