dl013: daten visualisieren
Intro (00:00:00)
Thema des Podcasts (00:00:18)
Willkommen zur dreizehnten Folge beim datenleben-Podcast, dem Podcast über Data Science.
Wir sind Helena und Janine und möchten euch die Welt der Daten näher bringen.
Was für Daten umgeben uns? Wie nehmen wir Daten wahr? Und was können wir aus ihnen lernen?
Wer schon immer mehr darüber wissen wollte, ist hier richtig, denn diesen Fragen gehen wir nach.
Thema der Folge (00:00:39)
- Daten sind überall, oft erreichen sie uns auch als Grafiken in allen möglichen Farben und Formen
- Z.B. haben wir ja bereits in der Wetterprojekt-Folge über verschiedene Aspekte gesprochen, wie man Daten (konkret Wetterdaten) verständlich visualisieren kann
- Wir wollen im Wesentlichen auf zwei Fragen antworten finden:
- Wofür verwenden Data Scientists Datenvisualisierungen? Auf was für Probleme stößt man dabei?
- Für diese Folge hat Helena einige Plots erstellt, über die sie mit mir spricht
- Diese findet ihr in den Shownotes auf unserer Webseite www.datenleben.de
Warum ist dieses Thema wichtig? (00:01:42)
- Daten können alles sein: Zahlen, Listen, Geordnete Tabellen, Statistiken, Filme, Musik, Noten, Texte, Sprache, Bilder
- Um Daten verständlich zu machen, müssen sie dargestellt werden, manchmal mit grafischen Elemente
- Ziele: Durch Visualisieren ein Gefühl für die Daten bekommen, vielleicht schon Auffälligkeiten sehen
- Analysieren der Daten, ansehen, um zu erkennen, ob die Ergebnisse stimmig sind
- Ergebnisse von Analysen für verschieden Zielgruppen verständlich machen
- Damit haben wir jeden Tag in den Nachrichten zu tun, mit unterschiedlichen Schwierigkeiten
- Dabei kann es zu Fehlern kommen, Grafiken sind vielleicht nicht besonders aussagekräftig
- Weil wir damit aber alle, auch als Nicht-Data Scientist, zu tun haben, ist das Thema wichtig
Einspieler: Worum geht es bei Datenvisualisierung? (00:04:11)
- Erinnert ihr euch noch an die Orte, an denen Menschen sich am häufigsten mit Covid-19 infizieren?
- Plötzlich geisterte das Gerücht herum, dass über 75% der Ansteckungen im privaten Bereich passieren.
- Dann sprach sich rum, dass gar nicht stimmt, sondern die Grafik falsch gelesen wurde
- Medienkompetenz, also quasi Datengrafiklesekompetenz, brauchen wir alle, wenn wir informierte Entscheidungen treffen können wollen
- Daten sind sehr komplex sind, weil es auf das Kleingedruckte und den größeren Kontext ankommt
- Data Scientists sind dafür verantwortlich, Daten zu erfassen, aufzubereiten, zu analysieren und dann eben zu visualisieren.
- Sie machen 3 Dinge: explorieren (erkunden), verifizieren (prüfen) und kommunizieren (vermitteln)
- Und spätestens da wird alles auch noch gesellschaftlich relevant: Für wen werden Daten visualisiert? Wer gibt so etwas in Auftrag? Welche Aussagen sollen damit getroffen werden?
- Datenvisualisierung geht uns alle an.
Exploration: Was habe ich für Daten vor mir? (00:06:36)
- Entdeckung, Erkundung unbekannter Daten, um ein Gefühl für die Daten zu bekommen (Aufbau, Inhalt)
- Bei umfangreichen Daten, grafisch ansehen, Text oder Tabellen können schnell unübersichtlich werden
- Beispiel: Bei zeitlichen Daten den Zeitlichen verlauf als Punkte/Linien plotten (aka Zeitreihe)
- Bei mehreren Datenspalten: Matrixplots, also quasi alles gegen alles plotten und so Muster erkennen
Was ist ein Matrixplot? (00:09:22)
library(GGally)
ggpairs(iris)
# Based on: http://rischanlab.github.io/Kmeans.html
x = iris[,-5]
y = iris$Species
kc <- kmeans(x,3)
gg <- ggplot(x) +
geom_point(aes(Sepal.Length,Sepal.Width, colour=paste0(kc$cluster)))
points(kc$centers[,c("Sepal.Length", "Sepal.Width")], col=1:3, pch=23, cex=3)
gg + geom_point(
data = as.data.frame(kc$centers[,c("Sepal.Length", "Sepal.Width")]),
aes(Sepal.Length, Sepal.Width, colour=paste0(1:3)),
shape=10, size=15)
- Matrixplots können aufzeigen wie die Dinge in komplexeren Datensammlungen zusammenhängen
- Bestehen aus verschiedenen Plots, die in einer Tabelle angeordnet werden
- Beispiel: Verschiedene Blumen und die Eigenschaften ihrer Blütenblätter Ausreißer leicht sichtbar
- Korrelation (Zusammenhang) von Daten wird sichtbar, Korrelationskoeffizient wird berechnet
- Plots mit Punktdarstellungen (jeder Punkt eine Blüte) können Häufungen, also Cluster aufzeigen
Was ist eine Clustererkennung? (00:15:40)
- Man erkennt gut drei Datensätze, die jeweils für sich (farblich unterschieden) Cluster bilden
- Automatische Clustererkennung, die bestätigt, was der Matrixplot schon angedeudet hat
- Heißt also, der Matrixplot vermittelt gut ersten Eindruck mit den verschiedenen Darstellungen
- Z.B. neben Punktverteilung und Kurven auch Balken, Korrelationen und Boxplots
- Median (Boxplots) ist die Mitte, genausoviel Werte darüber wie darunter, nicht der Mittelwert
- Diese Übersicht hat gezeigt, Cluster näher angucken könnte interessant sein
- Visualisierung als Exploration hat also das Ziel ein Gefühl für die Daten zu bekommen
- Achtung: Übersicht ungleich übersichtlich
- Zusammenhänge werden sichtbar, Entscheidungen für weitere Schritte können getroffen werden
Verifikation: Sind meine Schlüsse aus den Daten richtig? (00:21:16)
- Aber es gibt noch mehr Ziele, als nächstes soll es daher um die Verifikation gehen
- Beim Verifizieren, also Überprüfen, geht es darum mittels Visualisierungen der vorliegenden Daten, eine Vermutung zu überprüfen
- Liegt man richtig mit seiner These? Oder widersprechen die Daten der Annahme?
- Ein Cluster ist Beispielsweise schon ein Modell, das auf einen Datensatz angewendet wird
- Auch der R-Wert (siehe Coronadaten-Folge) ist ein Modell
- Modell kann auch ein neuronales Netz sein, das auf die Erkennung von Katzenbildern trainiert wird
- Quelle: Helenas Doktorarbeit https://doi.org/10.15488/9983
- Der grünen Linie liegt ein Modell (nach physikalischen Gesetzmäßigkeiten) zu Grunde, die Punkte sind die Datenmessungen
- Dass beides zusammenpasst, zeigt, dass die Daten durch das Modell bestätigt werden
- Anschließend hat Helena noch eine zweite Prüfung gemacht mit den Abständen der Datenpunkte zur Linie (Residuen) des Modells auf der Y-Achse
- Normalverteilung/Gaußsche Glockenkurve angewendet, um zu sehen, ob die Abstände entsprechend der Normalverteilung verteilt sind (Zufallsereignisse im naturgesetzlichen Rahmen liegen)
- Das kann man in einem Q-Q-Plot auftragen
Was ist ein Q-Q-Plot? (00:29:50)
- Quantile sind bestimmte Punkte in einer Verteilungsfunktion
- Die Linie stellt die Normalverteilung dar und wenn die Daten korrekt dieser Verteilung folgen, müssten sie auf der Linie liegen
- Theoretical: -1 bis 1 entspricht einer Standardabweichung, dass sich die Punkte also mittig bei Null sammeln ist schonmal gut
- Dass die Punkte aber nicht alle auf der Linie liegen, zeigt, dass das Modell noch nicht 100% passt
- So lässt sich also das Modell nochmal prüfen, Helenas Fazit: es sieht immer noch gut genug aus
Was ist die ROC-Curve? (00:34:46)
- Die nächste Form der Verifikation findet mittels der sogenannten ROC-Curve statt
- Beispiel aus einem Paper zu Covid-19-Symptomen https://dx.doi.org/10.1002%2F14651858.CD013665
- ROC-Curve ist ein Plot von Sensitivität vs. Spezifität, damit testet man einen Test (zum Beispiel auf Corona)
Quelle: Thomas Struyf et al.: Signs and symptoms to determine if a patient presenting in primary care or hospital outpatient settings has COVID‐19 disease (https://dx.doi.org/10.1002%2F14651858.CD013665)
Exkurs: Wie funktionieren Sensitivität & Spezifität? (00:35:27)
- Sensitivität und Spezifität werden ja immer wieder im Zusammenhang mit Tests auf Corona genannt
- Empfehlung: Mailab hat dazu ein gutes Video: Corona im Herbst | Ändern Schnelltests alles?
- Wir versuchen das hier mal in kurz und knapp darzustellen:
- Sensitivität und Spezifität geben an, mit wie gut ein Test ein korrektes Ergebnis anzeigen kann
- Sensitivität: Je sensitiver ein Test ist, desto häufiger wird ein positives Ereignis auch als positiv angezeigt
- Spezifität: Je spezifischer ein Test ist, desto häufiger wird ein negatives Ereignis auch als negativ angezeigt
- Diese Unterscheidung ist wichtig, weil daraus unterschiedliche Konsequenzen resultieren können.
- Ein falsch-positiver Schnelltest auf Covid-19 wäre für mich individuell blöd (Quarantäne etc.), wäre er falsch-negativ, wäre das für alle schlimm, die ich anstecke, weil ich denke ich sei gesund
- Beim Antikörpertest ist das umgekehrt: bei einem falsch-negativen Test verhalte ich mich weiterhin vorsichtig, ist der Test falsch-positiv, könnte ich vielleicht unvorsichtiger sein, weil ich mich immun glaube und mich infizieren
- Aber das sagt nur etwas über den Test aus, nicht über das individuelle Risiko, wie der Test ausfällt
- Wer sich damit befassen möchte, wie das individuelle Testergebnis eines Schnelltests zu verstehen ist, kann sich mal die Seite SchnellTestRechner.de angucken (Vorschau/Test-Version)
- Wie gut Tests sind, kann man sich mit der genannten ROC-Kurve visualisieren lassen
Wie wird die ROC-Curve interpretiert und erzeugt? (00:39:57)
- Hier sieht man eine Plot für die Symptome Riech- und Geschmacksverlust
- Besonderheit des Plots: die X-Achse fängt bei 1 an und geht bis 0, die Y-Achse fängt hingegen bei 0 an und geht bis 1
- Perfekt (100% zutreffend) wäre ein Test, wenn so das Ergebnis auf X- und Y-Achse bei 1 läge, was sehr unwahrscheinlich ist, aus verschiedenen Gründen
- Um einen Test beurteilen zu können, müssen Kriterien definiert werden
- Maschinelles Lernen: das neuronale Netz sagt eine Zahl zwischen 0 und 1, die sagt wie sicher das Netz sich ist ob eine Bestimmte Klassifikation zutriff (Also 0: es ist keine Katze, 1: es ist sicher eine Katze)
- Es gibt den Entscheidungswert/Schwellwert (threshold): z.B. 0.9, dann werden Katzen erkannt
- Sollen alle erkannt werden, muss der Wert vielleicht noch gesenkt werden, dafür geht aber auch die Spezifität runter, weil auch Nicht-Katzen leichter über den Schwellwert kommen (falsch-positive)
- Heißt also, der Schwellwert darf nicht beliebig niedrig werden, weil dann die Aussagekraft schwindet
- Fazit: Möchte man seine Daten oder Modelle verifzieren, muss man wissen, mit welchen Plots das möglich ist, um auf das Ergebnis zu kommen, das hilfreich ist
- Verifikation ist ein sehr wichtiges Feld für Data Science
Kommunikation: Wie vermittel ich meine Daten? (00:50:14)
- Kommunikation von Daten, auch mittels Grafiken, begegnet uns fast überall
- Beispiel: Neu-Infizierte mit Covid-19 täglich in der Tagesschau
- Hier geht es um die Frage, wie Daten vermittelt werden, ob an Auftraggeber, an die Politik oder einfach an interessierte Menschen
- Welche Daten werden kommuniziert? Rohdaten (Anzahl an Neuinfektionen) vs. modellierte Daten (Wahlumfragen)
- Bei Wahlumfragen werden nicht einfach nur 1000 Menschen befragt und die tatsächliche Prozentzahl ausgegeben
- Es werden Korrekturfaktoren einbezogen, weil man weiß, dass bestimmte Wähler*innengruppen schlechter erreicht werden oder auch ihre tatsächliche Präferenz verbergen
- Man muss sich fragen: Für wen kommuniziere ich Daten?
Welche Fallstricke gibt es in der Kommunikation von Daten?
- Die Achsenbeschriftung kann unleserlich oder irreführend sein
- Farbpalette ist nicht barrierearm ausgewählt (Rot-Grün-Blindheit z.B.), zu viele und ähnliche Farben
- Bei Tortendiagrammen sind ähnlich Große Tortenstücke oft schwer auseinander zu halten
- Achsenbeschriftung irreführend: Skala für Patient*innen Kölner Krankenhäuser startet bei -50
- Kann auch zu Verschleierungen führen, manipulierte Abstände wirken auf Betrachter*innen anders
- Frage: Welche Aussage soll getroffen werden, welches Ziel hat die Grafik?
- Manipulation, visuelle Darstellung weicht von schriftlichen Werten ab: CDU 25% vs. Grüne 23%
Fazit (01:00:54)
- Lasst euch nicht manipulieren, achtet auf bestimmte Dinge bei grafischen Darstellungen!
- Weiteres Beispiel Achsenbeschriftungen: In der Physik werden häufiger zwei verschiedene Datensätze in eine Grafik geplottet (X-Achse mit zwei Y-Achsen)
- Werden Daten zusammengebracht, die überhaupt keine Aussagekraft haben zusammen?
- Gerade Kommunikation mit Visualisierungen ist ein sehr komplexes Thema
- Falls euch etwas einfällt (Datensätze, bestimmte Arten von Visualisierungen) fragt nach, dann machen wir mehr Folgen dazu
- Z.B.: Woher weiß ich, welche Darstellungsform sich für meine Datensätze eignet?
Nächste Folge: am 22.05.2021 (01:03:13)
- Wir haben verschiedene Dinge in Planung, wissen aber noch nicht genau, welches Thema es wird
- Auf Twitter werden wir es in jedem Fall erwähnen, wer es also vorher wissen will, folge uns (;
Call to Action (01:03:36)
- Wenn ihr uns weiter hören möchtet, folgt uns auf Twitter unter @datenleben
- Oder besucht unsere Webseite: www.datenleben.de
- Hinterlasst uns gerne Feedback, wir würden uns darüber sehr freuen
- Habt ihr Fragen oder Themen, die euch interessieren? Dann schreibt uns!
Outro (01:04:09)
Schlagworte zur Folge
Datenvisualisierung, Datenanalyse, Daten visualisieren, Visualisierung, ROC-Curve, Q-Q-Plot, Matrixplot, Clustering, Clustererkennung, Datenkommunikation
Quellen
- datenleben: dl005 wetterprojekt
- DW: Wo infiziert man sich mit dem Coronavirus?
- Rischan Mafrur: K means Clustering in R example Iris Data
- datenleben: dl002 coronadaten)
- Helena Schmidt: Yukawa force spectroscopy to search for violations of Newton’s law of gravity below 1 µm distances.
- Wikipedia: Residuen
- Wikipedia: ROC-Kurve
- Thomas Struyf et al.: Signs and symptoms to determine if a patient presenting in primary care or hospital outpatient settings has COVID‐19 disease
- YouTube, maiLab: Corona im Herbst | Ändern Schnelltests alles?
- Cookbook R: Colors (ggplot2)
- Twitter, @pkbrin: "Kann mir @ARD_Presse erklären, wer so ein Diagramm erstellt? Und warum?"
- Twitter, @ChristianHelms: "Was muss einem die Düse gehen, bevor man eine derart manipulative Grafik bastelt?"
Weiterführende Links
3il17tr7kxefUeJ737w15oQhI3sfn6y4xl235go
2 Replies to “dl013: daten visualisieren”
Sehr lehrreich! Spannend. Scheint viel Arbeit dahinter zu stecken. Bin gespannt auf das nächste Thema.
Hab mir deine Folgen für unterwegs gerade gezogen 🙂 super! Einfach cooles Projekt!
LG Maik