dl053: normalverteilung

dl053: normalverteilung

Es geht dieses Mal um ein sehr mathematisches Thema, das nicht nur in unserem Podcast schon öfter erwähnt wurde, sondern allgemein häufiger mal eine Rolle spielt: Die Normalverteilung. Fragen, die wir uns in diesem Kontext gestellt haben: Was ist die Normalverteilung? Warum ist die Normalverteilung eigentlich normal? Liegt überhaupt eine Normalverteilung vor – und wie könnte ich das überprüfen? Und ein bisschen mehr... natürlich wieder mit einigen Beispielen. Und wir haben eine kleine Geschichte rund um das Gehirn von Carl Friedrich Gauß entdeckt, die wir natürlich auch einbringen wollen.

Links und Quellen

Schlagworte zur Folge

Normalverteilung, Gauß, Gauß'sche Glockenkurve, Datenvisualisierung, Histogramm, QQ-Plot, statistische Tests

Intro (00:00:00)

Thema des Podcasts (00:00:18)

Helena: Willkommen zur 53. Folge beim Datenleben Podcast, dem Podcast über Data Science. Wir sind Helena

Janine: und Janine

Helena: und möchten euch in die Welt der Daten mitnehmen. In unserer Welt wird es immer wichtiger, Daten in das große Ganze einordnen zu können. Deswegen wollen wir Data Science anhand von Themen erklären, die uns alle betreffen.

Thema der Folge (00:00:37)

Janine: Ja, und damit willkommen zu unserer vermutlich mathematischsten Folge, die wir bisher hatten. Das wird für einige vielleicht spannender als für andere, aber wir wollten uns mal eine Sache genauer angucken, die immer mal wieder erwähnt wird, nicht nur bei uns im Podcast schon häufiger mal, sondern auch an vielen anderen Stellen einfach. Und zwar geht es heute um die Normalverteilung oder auch Glockenkurve bzw. gauß'sche Glockenkurve genannt. Zu dem Begriff hatte unser Whisper-Transkriptionstool ja mal die gauß'sche Schokoladenkurve erfunden. Ja, genau. Fragen, die wir uns in diesem Kontext gestellt haben. Was ist die Normalverteilung? Und ja, dazu gehören noch so ein paar andere Randthemen, weil mathematische Konzepte selten ganz allein kommen. Das ist auch der zentrale Grenzwertsatz, wo wir uns die Frage stellen, warum ist die Normalverteilung eigentlich normal? Und ja, es geht dann weiter mit so Fragen, liegt überhaupt eine Normalverteilung vor? Manches sieht ja vielleicht nur so aus. Und dann noch, mit welchen Plots, also Diagrammen, kann ich eine Normalverteilung eigentlich erkennen? Und da haben wir ja hier und da natürlich auch wieder Beispiele.

Warum ist das Thema interessant? (00:01:59)

Helena: Ja, wir dachten uns, wir reden jetzt mal über das Thema Normalverteilung, einfach weil es bei sehr vielen Themen, die wir bisher besprochen haben, immer wieder eine Rolle gespielt hat und öfter auch erwähnt wurde. Und ja, die Normalverteilung wird durchaus häufiger mal irgendwo erwähnt. Aber warum sie jetzt eigentlich normal ist und Normalverteilung heißt, das wird eigentlich selten erklärt. Deswegen wollen wir das heute einmal machen.

Einspieler: Die vertauschten Gehirne (00:02:25)

Janine: Die vertauschten Gehirne. 2013 hat eine Untersuchung ergeben, dass das konservierte Gehirn, das bisher als das Gauss-Gehirn untersucht wurde, gar nicht sein Gehirn war. Und zwar gab es eine Vertauschung in der Sammlung des Instituts für Ethik und Geschichte der Medizin der Universitätsmedizin Göttingen. Aber wer war dieser Gauss eigentlich? Der schon zu Lebzeiten berühmt gewordene Mathematiker Carl Friedrich Gauss wurde im Jahr 1777 in Braunschweig geboren. Bereits als Kind fiel seine besondere Begabung für den Umgang mit Zahlen auf. Im Alter von 14 Jahren wurde er Herzog Karl Wilhelm Ferdinand von Braunschweig vorgestellt, der ihm schließlich tatsächlich als Förderer die weitere Ausbildung finanzierte. 1807 übernahm Gauss in Göttingen den Lehrstuhl für Astronomie und wurde der Direktor der Göttinger Sternwarte. Dort lebte und wirkte er bis zu seinem Tod im Jahr 1855. Gauss hat nicht nur mit seiner Methode der kleinsten Quadrate dazu beigetragen, den Zwergplaneten Ceres wiederzuentdecken, auf ihn geht auch im Wesentlichen die Entwicklung der Normalverteilung zurück. Er arbeitete in den Gebieten Algebra, Zahlentheorie, Astronomie, Potentialtheorie, Landvermessung und Geodäsie, Magnetismus, Elektrizität und Telegrafie. Nach seinem Tod im Februar 1855 wurde sein Gehirn entnommen und zu Forschungszwecken konserviert. Die pathologisch-anatomische Sammlung der Universität Göttingen wurde damals von Konrad Heinrich Fuchs gegründet. Die Verwechslung – das Gehirn des "Fürsten der Mathematik", wie Gauss auch genannt wurde, wurde zuerst von Rudolf Wagner untersucht. Er veröffentlichte die Ergebnisse dieser und anderer Untersuchungen in den 1860er Jahren. Dabei erstellte er detaillierte Kupferstiche und Lithographien, um die Gehirne zu dokumentieren. In den folgenden 150 und mehr Jahren wurden mehrere Untersuchungen am Gehirn von Gauss und auch anderen Gehirnen durchgeführt. Die Neurowissenschaftlerin Renate Schweitzer entdeckte auf Bildern aus dem Magnetresonanztomografen von 1998, dass das Gehirn von Gauss eine seltene Variation aufweist – eine sichtbare Zweiteilung der Zentralfurche. Um ihren Befund zu überprüfen, zog sie die erste Veröffentlichung von Rudolf Wagner aus dem Jahr 1860 heran. Dort fand sie allerdings in dem sehr genau gearbeiteten Kupferstich keine vergleichbare Besonderheit. Das ganze Gehirn schien ein anderes zu sein. Wie sich herausstellte: Das Gehirn des Mediziners Konrad Heinrich Fuchs, in dessen Lithographie diese geteilte Zentralfurche deutlich zu erkennen ist. Fuchs ist im selben Jahr wie Gauss gestorben, etwa zehn Monate nach ihm, und sein Gehirn wurde ebenfalls von Rudolf Wagner konserviert und dokumentiert. Im Laufe der nächsten Jahre müssen die Gehirne bei einer erneuten Untersuchung vertauscht worden sein, sodass über viele Jahrzehnte Fuchs' Gehirn in Gauss' Glas lag und umgekehrt. Mit erneuten MRT-Scans konnte dieser Verdacht schließlich im Vergleich mit der Veröffentlichung von Wagner bewiesen werden. So kam es dazu, dass Gauss' Gehirn nicht Gauss' Gehirn war, aber jetzt doch wieder im richtigen Glas konserviert werden konnte.

Was ist die Normalverteilung? (00:05:53)

Helena: Was ist die Normalverteilung? Ja, die Normalverteilung oder auch Gauß'sche Glockenkurve, wenn man sich das vorstellt, man hat irgendwie Daten und erfasst die und möchte dann gucken, ja, welche Daten sind wie häufig, dann rechnet man ja vielleicht für diese Daten eine Statistik aus, so was wie Mittelwert und Standardabweichung. Und wenn man davon ausgeht, dass die Daten normal verteilt sind, dann reichen Mittelwert und Standardabweichung auch vollständig aus, um diese Daten zu beschreiben. Da braucht man eigentlich keine weiteren Informationen mehr. Und ja, der Mittelwert, also quasi der Wert, wenn man alle Sachen irgendwie addiert und dann durch die Anzahl der Werte teilt, ist bei normal verteilten Größen auch immer gleich dem Median. Der Median ist ja der mittlere Wert, nicht zu verwechseln mit dem Mittelwert. Das heißt, wenn man alle Daten sortiert und dann einfach den in der Mitte nimmt, das ist dann der Median. Und bei normal verteilten Größen sind Mittelwert und Median auch immer gleich. Wenn Sie das nicht sind, ist das ein erster Hinweis darauf, dass die Daten eben nicht normal verteilt sind. Und es gibt dann noch bei manchen Verteilungen gibt es noch weitere sogenannte Moden. Eine Mode ist zum Beispiel der Mittelwert. Es gibt aber auch noch andere Moden wie die Schrägheit, also wie schräg ist die Verteilung, Skewness auf Englisch, aber auch verschiedener höherer Ordnungen. Und die Normalverteilung hat eben die Eigenschaft, dass bis auf den Mittelwert alle Moden null sind. Die sind quasi nicht vorhanden. Das heißt, hier reicht wirklich einfach nur Mittelwert und Standardabweichung. Und wenn man das hat, dann kann man damit weiterrechnen. Das ist ziemlich nützlich. Dann muss man noch bedenken, dass die Normalverteilung zunächst einmal eine Wahrscheinlichkeitsdichte-Funktion ist. Also was heißt das? Wenn man jetzt etwas messen will oder wissen will von einer Größe oder von einer Information, die einen kontinuierlichen Wert hat, das absolute Standardbeispiel für Normalverteilung sind die Größenverteilung oder Längenverteilung von Menschen, wie groß ist ein Mensch und wie groß sind verschiedene Menschen, dann ist ja die eigentliche Größe im Rahmen der Messgenauigkeit ziemlich kontinuierlich. Da kann man auf einen Atom genau theoretisch messen, wie groß ein Mensch ist. Und dann existiert jede Größe, wenn man die in Atomradien angeben würde, vielleicht nur ein einziges Mal. Und wenn man jetzt allerdings anguckt, wie oft bestimmte Werte in einem bestimmten Bereich liegen, zum Beispiel ob jemand 1,80 Meter groß ist, dann guckt man sich an, wie genau möchte ich das denn jetzt messen? Zum Beispiel auf 1 Millimeter genau, dann würde man ja quasi alle Leute, die 1,799 bis 1,801 groß sind, in eine Gruppe packen und dann gucken, wie oft ist diese Gruppe. Bei Körpergrößen von Menschen würde man vielleicht nicht so präzise sein, weil das so genau die Messgenauigkeit nicht ist, weil Menschen können ja auch schief stehen und dann sind die unterschiedlich groß, da ist dann 1 Millimeter Messgenauigkeit irgendwie ein bisschen unrealistisch. Da misst man vielleicht eher auf 1 Zentimeter genau. Das heißt, man packt alle Leute in eine Gruppe, die jetzt 1,795 groß sind und bis 1,805 Meter groß. Und das ist dann quasi ein Bereich. Und dann würde man eben bei der Normalverteilung gucken, welche Fläche liegt jetzt unter dieser Normalverteilung zwischen beiden Werten. Und dadurch, dass bei der Normalverteilung die Fläche auf 1 normiert ist, also das heißt, die Fläche der Normalverteilung, die unter der Normalverteilung liegt, der Glockenkurve, hat den Wert 1, was 100% entspricht. Und dann ist quasi die Fläche unter dieser Linie, die von 1,795 und 1,805 ist, das ist dann auch im Grunde der Anteil oder der Prozentsatz der Leute, die diese Größe haben, wenn man bei der Körpergröße eben von normal verteilten Größen ausgeht. Das heißt, auf der einen Seite gilt die Normalverteilung erstmal für kontinuierliche Werte, aber man packt die ja immer in Abschnitte zusammen, die man zusammenzählt, um die Häufigkeit zu bekommen. Ja, und kontinuierliche Werte sind sowas wie die Längen von etwas, die Größen oder auch sowas wie Zeiten oder ein Gewicht. Das sind alles kontinuierliche Werte, im Gegensatz zu Kategorien. So, man kann die zwar in verschiedene Gruppen zusammenfassen, aber das kann man dann auch wieder anpassen, je nachdem, wie man es gerade braucht, was man jetzt bei reinen Kategorien-Sachen nicht machen kann. Kategorien wären jetzt zum Beispiel, welche Partei hat jemand gewählt? Also, wie gesagt, ein bekanntes Beispiel, was man in vielen Texten zum Thema Normalverteilung findet, ist eben Körpergröße von Menschen, dass die grundsätzlich erstmal normal verteilt ist. Wenn man sich das jetzt genauer anguckt, funktioniert das allerdings nur für eine Altersgruppe und dann auch nur für ein Geschlecht, das man zusammenpackt. Dann sind die Menschen ungefähr normal verteilt. Aber allein das Alter ist schon wieder relevant, weil Menschen in verschiedenen Altersgruppen auch unterschiedlich groß geworden sind, weil sich zum Beispiel die Ernährung oder so verbessert hat über die Jahrzehnte. Und deswegen ist das zwar grundsätzlich normal verteilt, aber nicht auf alle Menschen bezogen. Ja, ein anderes Beispiel für etwas, was normal verteilt ist, ist, wenn man sich jetzt anguckt, wenn man jetzt ein Spiel spielt. Es gibt sogenannte Rhythmusspiele, wo man dann in einem bestimmten Rhythmus bestimmte Dinge machen muss. Da läuft dann meistens irgendwie eine Hintergrundmusik und dann muss man im Takt der Musik Dinge tun. Und wie präzise man dann eben diesen Takt hält, ist dann quasi auch normal verteilt. Man hat dann zwischen zwei Mal, dass man drücken muss, immer einen bestimmten zeitlichen Abstand. Und dann gibt es quasi den mittleren Abstand, aber den schafft ein Mensch jetzt nicht unbedingt immer exakt. Das heißt, man ist immer etwas zu früh oder zu spät oder oft genug kriegt man den Abstand auch gut hin, wenn man gut im Takt ist. Aber wenn man sich das auf Millisekunden genau anguckt, dann ist das immer nicht exakt. Und sowas kann man eben auch verwenden oder wird im Bereich der Rhythmusspiele durchaus auch benutzt, um Cheater zu entdecken. Bei dem Spiel Osu! gab es jetzt vor kurzem einen Fall, dass jemand seine Tastatur so manipuliert hatte, dass der zweite Tastendruck immer exakt gleich nach dem ersten passiert ist, weil die Tastatur so Automatisierungsfunktionen hatte. Und da hat man gesehen, ja, das ist eindeutig nicht mehr menschlich, weil Menschen können nicht so präzise drücken. Und so hat man dann eben einen Cheater gefunden, weil etwas nicht mehr normal verteilt war.

Janine: Wie frech, einfach so betrügen. Ja, wir hatten ja schon gesagt, das heißt auch die Gauẞ'sche Glockenkurve, denn dieser Carl Friedrich Gauss ist bekannt dafür, die Normalverteilung eingeführt zu haben. Und erstmals hat er sie in einem Aufsatz im Jahr 1809 veröffentlicht, wo übrigens auch die kleinsten Quadrate drin vorkommen. Da geht es um den Nachweis, beziehungsweise um den Beweis, dass Ceres demnächst wieder auftaucht und dann mit dieser Methode auch wieder gefunden werden konnte. Das hatten wir, ich glaube, in der letzten Folge.

Helena: Ja, genau. In der letzten Folge hatten wir tatsächlich die gleiche Arbeit schon von Gauss, nur haben wir uns auf einen anderen Aspekt konzentriert. Diesmal geht es eben um die Normalverteilung.

Janine: Was eigentlich ein ziemlicher Zufall ist, also nicht ganz, aber schon auch ein bisschen. Jedenfalls in dem Aufsatz von Gauss, den er da 1809 veröffentlicht hatte, war die Normalverteilung noch nicht die Normalverteilung namentlich, sondern er hatte ihr einen anderen Namen gegeben. Gauss nannte es Fehlerverteilung. Das ist ja was ganz anderes und erst mal verwirrend, finde ich.

Helena: Naja, es ist ja insofern nicht was anderes, als dass er ja auch die Methode der kleinsten Quadrate entwickelt hat in der gleichen Arbeit und eben diese Fehler um diese Berechnungen herum dann eben auch normalverteilt sind, also um die Kurve. Man misst ja mit einer bestimmten Genauigkeit und dann ist halt die Messungenauigkeit ist dann eben auch normalverteilt. Und deswegen, weil er das in diesem Kontext benutzt hat, war das ja auch wirklich die Verteilung, die seine Fehler hatten.

Janine: Ja.

Helena: Das ergibt schon Sinn. Und was ich auch noch interessant fand, also mir war nicht klar, dass Gauss das damals so genannt hat, also Normalverteilung kam halt erst einige Jahrzehnte später als Name auf. Aber es gibt jetzt immer noch etwas, das nennt sich Fehlerfunktion, was im Grunde genommen einfach das Integral der Normalverteilung ist. Und während man jetzt, wie ich das vorhin erklärt hatte, um jetzt für zwischen bestimmten Werten die Wahrscheinlichkeit auszurechnen, muss man halt zwischen diesen Werten integrieren bei der Glockenkurve. Wenn man jetzt allerdings die Fehlerfunktion benutzt, dann muss man nicht mehr integrieren, also abgesehen davon, dass man sie nicht analytisch ausrechnen kann und mathematisch immer noch integriert wird. Numerisch gibt es da Algorithmen für. Aber im Prinzip kann man daraus dann direkt eben die Wahrscheinlichkeit von einem bestimmten Bereich ausrechnen, weil man es ja schon fertig integriert hat. Also die Fehlerfunktion habe ich durchaus auch schon öfter verwendet.

Janine: Also für mich klingt das jetzt so ein bisschen von außen, ich bin ja in der Mathematik nicht ganz so tief drin, dass ja Gaus halt für sein spezifisches Problem mit den kleinsten Quadraten quasi eben eine Bezeichnung gefunden hat, die er Fehlerverteilung nannte. Und im weiteren hat sich das dann eben anders entwickelt, so wie Helena gerade sagte. Jahrzehnte später wurde dann der Name Normalverteilung gewissermaßen etabliert. Und ja, auch das, was Gaus da gemacht hat, ist natürlich nicht aus dem Nichts heraus entstanden. Die Normalverteilung gehört zum Gebiet der Wahrscheinlichkeitsverteilung und das, wie man sich vorstellen kann, ist ein ziemlich komplexes Gebiet der Mathematik. Und da gibt es eben auch reichlich Vorarbeiten, verwandte Konzepte, die darauf hingeführt haben oder auch noch daraus entstanden sind, beziehungsweise im Nachgang anders aufeinander bezogen wurden. Also die dann vielleicht eine bessere Nützlichkeit bekommen haben oder anders benutzt wurden, sich besser herauskristallisiert haben. Und ja, das Ganze ist für mich von außen relativ undurchdringlich, aber wir versuchen trotzdem so die Zusammenhänge ein bisschen darzustellen, wo wir sie brauchen und wo sie für uns auch nützlich sind. Und deswegen haben wir dann noch zwei Begriffe herausgepickt, um ein bisschen mehr zur Normalverteilung sagen zu können. Das ist der zentrale Grenzwertsatz. Ja, und da haben wir einen kurzen Satz im Vorfeld schon mal, was der zentrale Grenzwertsatz ist, und zwar besagt er, dass unter bestimmten Umständen Wahrscheinlichkeiten am Ende immer eine Normalverteilung ergeben können. Und wir haben den Begriff Binomialverteilung und die besagt, wie wahrscheinlich bestimmte Werte zum Beispiel beim Münzenwerfen sind. Und ja, warum haben wir genau diese beiden Begriffe herausgesucht? Beim ersten scheint es jetzt gerade vielleicht ein bisschen offensichtlicher. Aber ja, sie helfen uns, folgende Frage zu beantworten, die ich jetzt Helena stelle.

Warum ist die Normalverteilung normal? (00:17:49)

Janine: Warum ist die Normalverteilung normal?

Helena: Ja, das ist eine gute Frage. Und die kurze Antwort darauf wäre der zentrale Grenzwertsatz. Und in der langen Antwort versuche ich, das jetzt einmal zu erläutern. Also, wir fangen jetzt einmal an mit einem Münzwurf. Wenn man eine Münze wirft, dann kriegt man entweder Kopf oder Zahl heraus. Ich gehe jetzt mal davon aus, das sind die einzigen Szenarien, also dass man die nicht zwischen ausversehen verliert oder sie auf der Kante liegt, sondern dass sie wirklich nur Kopf oder Zahl zeigen kann. So, und wenn man jetzt eine Münze mehrfach wirft, dann ist die Wahrscheinlichkeit für jedes Ereignis Kopf oder Zahl 50 Prozent, für jeden einzelnen Wurf. Und das ist unabhängig davon, wie oft man die Münze vorher schon geworfen hat. Jeder neue Münzwurf quasi fängt wieder von vorne an. So, es kann halt auch mal sein, dass mehrmals das Gleiche herauskommt, also dass man dreimal Zahl wirft oder viermal. Aber man hat eigentlich immer eine sogenannte Gleichverteilung. Das heißt, die beiden Ereignisse sind gleich häufig. Und am Ende läuft es darauf hinaus, wenn man sehr oft wirft, dass dann ungefähr genauso oft Zahl wie Kopf herausgekommen ist. Und wenn man jetzt mehrere Münzen gleichzeitig wirft und dann die Anzahl, wie oft Zahl geworfen ist, zählt, und dann sagt man, jetzt ist nicht mehr die Frage, ist Kopf oder Zahl herausgekommen, das Ergebnis, sondern wie oft ist Zahl herausgekommen, ist das Ergebnis, dann bekommt man die sogenannte Binomialverteilung, die besagt, wie wahrscheinlich jede einzelne dieser Münzwürfe ist, dass man eben dreimal Zahl hat, viermal Zahl und so weiter. Und dazu gibt es eine ganz nette Webseite, auf der man sehr viele Münzwürfe gleichzeitig simulieren kann. Da kann man dann irgendwie sagen, ja, ich möchte, also auf der Seite gehen bis zu 17 Münzen, und dann möchte ich diese zehnmal hintereinander werfen und vielleicht auch hundertmal und so weiter. Und wenn man das halt macht, dann sieht man, dass bestimmte Werte besonders häufig vorkommen. Also bei 17 Münzen liegt quasi die Mitte irgendwo bei, das kann ja auch nullmal rauskommen, das heißt, es gibt 18 mögliche Werte, die rauskommen können, nullmal Zahl und 17mal Zahl. Das heißt, die Mitte ist irgendwie bei neun, das heißt, das am häufigsten ist, dass man auch neunmal Zahl wirft, aber es wird ja nicht jedes Mal so sein, sondern dann wird auch mal achtmal Zahl geworfen oder zehnmal Zahl. Und je öfter man das wirft, desto mehr nähert sich das Ganze dann eben den berechneten Werten aus der Binomialverteilung an. Und diese Binomialverteilung wird, wenn man quasi die Anzahl der Münzen immer größer macht, dann, keine Ahnung, hundert oder tausend Münzen gleichzeitig wirft, und das ganz oft wiederholt, dann nähert sich diese Binomialverteilung immer mehr der Normalverteilung an. Also ein bisschen, wenn man sich das anguckt, sieht man auf dieser Webseite schon, dass das immer mehr diese Glockenform bekommt, aber damit es wirklich am Ende normal verteilt wird, muss man eben auch die Anzahl der Münzen, die man gleichzeitig berücksichtigt, immer weiter erhöhen. Gut, mathematisch betrachtet heißt das Ganze dann, dass bestimmte mathematische Voraussetzungen gelten müssen, damit ein Zufallsexperiment, das man ganz oft wiederholt und vor allen Dingen mehrfach kombiniert, dass diese auch am Ende eine Normalverteilung ergeben können. Das erste dazu ist, die verschiedenen Verteilungen oder Zufallsexperimente, die man macht, müssen unabhängig voneinander sein. Also wie bei einem Münzwurf, jede Münze ist unabhängig von der, die man davor geworfen hat, weil sie immer wieder ihren Zustand auf null zurücksetzt. Wenn das nicht der Fall ist, würde das hier eben nicht funktionieren. Also beim Lottozahlenziehen zum Beispiel ist die Zahl, die man gezogen hat, ja dann raus aus dem Topf, und die kann man nur einmal ziehen. Das heißt, damit könnte man keine Normalverteilung erzeugen. Dann müssen all die Verteilungen, die man halt kombiniert, eigentlich gleich sein. Das heißt, man muss wie den Münzwurf den Münzwurf halt viele, viele Male wiederholen und zusammenpacken. Man kann jetzt nicht, wenn jedes Mal die Verteilung unterschiedlich ist, die dann auch so kombinieren. Ja, dann gibt es noch eine sehr mathematische Voraussetzung, nämlich, dass die Varianz nicht unendlich groß sein darf bei den Verteilungen, die man da benutzt. Die Varianz ist im Wesentlichen das Quadrat von der Standardabweichung. Und man benutzt ja normalerweise die Standardabweichung, um normal vergeteilte Größen zu beschreiben, weil der Wert, der da rauskommt, ist etwas, was wir verstehen können. Man weiß ja vielleicht auch, innerhalb von einer Standardabweichung liegen 67% aller Werte einer Normalverteilung. Innerhalb von zwei Standardabweichungen um den Mittelwert herum sind, ich glaube, etwa 95% aller Werte. Und bei drei Standardabweichungen sind es ungefähr 99% aller Werte liegen in diesem Bereich. Und das ist eine Länge, die halt die gleiche Einheit hat wie der Wert, den man misst. Die Varianz hingegen ist ja das Quadrat. Das heißt, man kann sich mit dieser Zahl nicht so viel vorstellen. Wenn man allerdings zwei normal verteilte Größen hat und die sich überlagern lässt, sodass man quasi deren Ergebnisse addiert, in der dann entstehenden neuen Verteilung kann man dann die Mittelwerte ja addieren und kriegt dann den richtigen Mittelwert raus. Aber man kann nicht die Standardabweichung addieren, sondern man muss die Varianzen addieren und dann kriegt man die neue Standardabweichung. Also es gibt durchaus Situationen, wo die Varianz das mathematisch praktischere Tool ist, aber meistens versteht man ja eher, was meint jetzt eigentlich diese Standardabweichung. Das heißt, der zentrale Grenzwertsatz besagt unter den genannten Voraussetzungen, also dass man sehr viele Verteilungen kombiniert, diese Verteilungen unabhängig voneinander sind, aber sie jeweils gleich sind und die Varianz nicht unendlich groß ist, da kriegt man immer eine Normalverteilung am Ende heraus. Was es in der Statistik dann auch noch gibt, ist das sogenannte Gesetz der großen Zahl. Da geht es auch darum, dass man ein Zufallsexperiment sehr oft wiederholt und dann besagt dieses Gesetz, ja, wenn man, keine Ahnung, eine Million mal eine Münze wirft, dann nähert sich die relative Häufigkeit, also wie oft habe ich Zahl im Verhältnis zu Kopf geworfen, dem theoretischen Wert der Wahrscheinlichkeit an. Das heißt, wenn ich das sehr oft wiederhole, dann kriege ich bei 50% Kopf raus und bei 50% Zahl. Und das ist insofern, weil beides irgendwie mit sehr vielen Wiederholungen zusammenhängt, könnte man das vielleicht verwechseln, aber beim Gesetz der großen Zahl geht es eher darum, dass man darüber feststellen kann, ja, ist jetzt diese Münze oder dieser Würfel wirklich so verteilt, wie man das dachte? Wenn man einfach dieses eine Experiment sehr oft wiederholt.

Janine: Das heißt, da könnte man zum Beispiel herausfinden, dass eine Münze oder ein Würfel manipuliert ist, in dem eine Seite mehr Gewicht hat, wenn sie eben nicht entsprechend der Wahrscheinlichkeit sich verhält?

Helena: Genau, wenn du das jetzt irgendwie tausendmal wiederholst und dann feststellst, ja, 600 Mal habe ich Zahl geworfen, dann ist das wahrscheinlich manipuliert.

Janine: Ahja.

Helena: Also, wenn man jetzt irgendwie würfelt mit einem normalen Sechserwürfel, man würfelt 10 Mal, dann kann es schon sein, dass man unter diesen 10 Mal viermal eine Eins würfelt. Wenn man aber 100 Mal würfelt und dann 40 Mal eine Eins bekommt, dann ist das wiederum sehr unwahrscheinlich. Das heißt, es spricht dann dafür, dass es manipuliert ist. Und das Gesetz der großen Zahl besagt dann eben, dass sich dieser Würfel eben der erwarteten Wahrscheinlichkeit, dass alle mit einem Sechstel der Wahrscheinlichkeiten drankommen soll, annähert. Und der zentrale Grenzwertsatz hingegen ist dann, wenn man jetzt ganz viele Würfel hat, und dann muss man aber noch berücksichtigen, ja, diese Würfel müssen eben auch sich überlagern. Also im Falle von den Würfeln heißt das, wenn man jetzt so ein Spiel wie Kniffel spielt, dann interessiert einen ja nur, wie oft hat man jetzt eine Sechs geworfen. Habe ich jetzt fünf Sechsen oder nur eine? Und dann entspricht das eher, was einem interessiert, dem Gesetz der großen Zahl. Man kriegt aber keine Normalverteilung raus, wenn man das länger spielt, weil es geht nur darum, dass man jedes Mal eben einzelne Zahlen würft. Wenn man jetzt aber so was wie Siedler von Catan spielt, dann hat man ja zwei Würfel und einen interessiert ja nicht, ob man eine Eins gewürfelt hat, sondern man addiert die Sachen zusammen und dann sieht man ja, die Sieben ist am häufigsten und so weiter. Und dann will man ja taktisch so spielen, dass man bei häufigen Sachen auch in der Nähe seine Häuser baut und so weiter. Und wenn man jetzt hier die Anzahl der Würfel immer weiter erhöhen würde beim Siedler spielen, dann würde sich das eben einer Normalverteilung annähern. Ja, es gibt dann noch eine weitere Fehlannahme, die man haben kann über den zentralen Grenzwertsatz. Also der besagt ja, wenn man halt eine bestimmte Zufallsverteilung ganz oft miteinander kombiniert, dann bekommt man am Ende eine Normalverteilung. Wenn man jetzt allerdings sagt, ja, ich habe jetzt hier Menschen und suche zufällig aus der Bevölkerung Menschen raus und dann messe ich, wie groß die sind oder so, dann bekomme ich, wenn ich das sehr oft wiederhole, nicht die Normalverteilung heraus, weil im Extremfall habe ich ja einmal alle Menschen durchgemessen und wenn dann die Körpergröße in Wirklichkeit gar nicht normal verteilt ist, weil es zum Beispiel sehr viele Kinder gibt, die einfach kleiner sind, oder die Leute sind halt je nachdem, wo die herkommen, unterschiedlich groß, dann kriegt man am Ende, wenn man dieses Zufallsexperiment wiederholt, auch eigentlich nur die Verteilung, die tatsächlich in der Bevölkerung schon stattfindet, heraus. Weil das eben ja nicht zufällig ist. Weil nicht jeder Mensch quasi neu erschaffen wird für die Messung und zugrunde liegt eine Normalverteilung, sondern ich kann im Extremfall halt ja nur die reale Menschenpopulation messen. Und insofern gibt es dann eben keine Normalverteilung, wenn die nicht auf andere Weise schon normal verteilt sind. Dazu habe ich aber noch ein anderes Beispiel. Wir alle kennen ja Regenbögen. Die entstehen, wenn Sonnenlicht auf Regen trifft und es gleichzeitig regnet und die Sonne scheint, dann sieht man einen Regenbogen. Dieser Regenbogen hat eben die Eigenschaft, dass die Farben eben die Spektralfarben sind. Jetzt ist es aber so, dass bestimmte Gase oder sowas manche von diesen Farben halt absorbieren können. Das ist auch in der Sonne der Fall. Auch die Sonne hat einen Gas außen, was dann bestimmte Farben absorbiert. Das heißt, würde man jetzt sehr genau in diesen Regenbogen gucken, dann sieht man da so Löcher, die dann schwarz sind und gar nicht ihre eigene Farbe haben. Wenn man sich jetzt anguckt, auf welche dieser Wellenlängen, auf welche dieser Farben eben ein Gas reagiert, dann sieht man ja, für ein bestimmtes Gas ist auch eine bestimmte Wellenlänge typisch. Aber um diese Wellenlänge herum bildet sich dann eben auch wieder eine Normalverteilung. Und das kommt hier jetzt daher, dass alle Gasmoleküle sich eben bewegen, weil es ist halt warm. Wir haben Wärme und Wärme ist im Wesentlichen nur Bewegung von Molekülen. Das heißt, die bewegen sich in alle möglichen Richtungen und es ist dann bei vielen, vielen Milliarden, und das ist immer noch zu klein, Molekülen, die gleichzeitig irgendwie sich zufällig in irgendeine Richtung bewegen, hat man eben sehr viele von diesen Zufallsexperimenten quasi. Man misst ein Molekül und dann gleichzeitig noch ein anderes und davon sehr viele, dass sich das alles eben so stark mittelt, wie die sich verhalten, dass es auch normal verteilt ist, diese Breite von dieser Linie, die absorbiert wird. Würde man jetzt alles auf den absoluten Neupunkt herunterkühlen, dann bekäme man eben nicht mehr die Normalverteilung, sondern diese sogenannte natürliche Linienbreite, die Lorenz verteilt ist. Das ist eine Verteilung, die auf den ersten Blick durchaus der Normalverteilung ähnelt, aber sie tatsächlich eigentlich nicht ist, sondern sie ist ein bisschen spitzer. Und die kommt eben aus einem quantenmechanischen Effekt heraus. Und wenn man diese Lorenzverteilung, also die grundlegende Zufallsverteilung, mit den Bewegungen eben kombiniert, dann hat man ganz viele Wahrscheinlichkeiten, die sich überlagern, und dann hat man wieder eine Normalverteilung am Ende.

Janine: Okay, also noch etwas anderes, wo man quasi eine bestimmte Verteilung hat oder einen bestimmten Grundsatz. Wenn es dann etwas weitergeht, also in diesem Fall ein neuer Aspekt hinzukommt oder die Häufigkeit hinzukommt, dann gleitet das über in eine Normalverteilung.

Helena: Ja.

Janine: Also ich nehme bisher auf jeden Fall mit, wesentliche Aspekte der Normalverteilung ist halt, dass wenn etwas häufig genug getestet wird oder die Datengrundlage einfach groß genug ist, dann kann ich eine Normalverteilung vorliegen haben. Und gleichzeitig auch, was ich jetzt vor allem aus deinem Linienbreitenbeispiel der Spektrallinien mitnehme, dass halt auch in diesem Fall durch die Bewegung quasi mehr Zufall, also die Zufälligkeit hier eine Rolle spielt. So das heißt, ja, wenn der Zufall höher ist, kann ich auch eher eine Normalverteilung vorfinden.

Helena: Naja, man hat halt vor allen Dingen sehr viele Moleküle, die sich überlagern, die alle unterschiedlich sich in verschiedene Richtungen bewegen. Das ist so der Punkt.

Janine: Also auch eher die Menge.

Helena: Genau, das ist auch einfach die Menge. Also physikalisch funktioniert das dann wieder über den Dopplereffekt, dass für die betrachtende Person dann, wenn die Sachen in die eigene Richtung sich bewegen, halt die Wellenlänge anders darstellt, als würden sie von einem weg bewegen. Und durch die Bewegung ist das dann wieder normal verteilt, was man dann als Linienbreite misst, obwohl, wenn man sich die Geschwindigkeiten angucken würde von den Molekülen selber, sind die ja nicht normal verteilt.

Janine: Okay, gut. Dann hatten wir jetzt auf jeden Fall Münzen, Würfel, Licht und andere Dinge. Aber wir hatten ja in unserem Teaser in der letzten Folge auch Dinosaurier versprochen. Wie kommen die denn jetzt ins Spiel?

Habe ich eine Normalverteilung? (00:32:46)

Helena: Genau, die Dinosaurier kommen dadurch ins Spiel, dass man ja auch zweidimensionale Daten haben kann. Also ich kann eine normal verteilte Größe haben auf der x-Achse, aber dann kann ich ja auch davon abhängig noch andere Werte haben, die für sich genommen vielleicht auch normal verteilt sein können, auf der y-Achse. Und das kann man dann aufmalen und mit Linien verbinden. Und da gibt es dann einen Beispieldatensatz, der nennt sich "DataSaurusDozen", also das Datensaurus-Dutzend. Das sind dann ein Dutzend Datensätze, die, wenn man sie als zweidimensionalen Plot sich anguckt, alle unterschiedlich aussehen. Aber die einzelnen Werte in x-Richtung bzw. in y-Richtung haben alle die gleiche Standardabweichung und die gleiche Mittelwert.

Janine: Also das, was wir für die Normalverteilung quasi bräuchten.

Helena: Genau, das, was halt so bei der Normalverteilung ausreichen würde, um diese Daten zu beschreiben. Und das hat man jetzt DatensaurusDozen genannt, weil einer dieser Fälle sieht halt aus wie so ein Dizensaurierkopf. Ja, jetzt haben wir hierfür einfach nur Standardabweichung und Mittelwert, aber wir haben ja auch die einzelnen Werte. Ja.

Janine: Ja, genau. Und da ist die Frage ja dann eigentlich, wie kann ich erkennen, ob es dann tatsächlich eine Normalverteilung ist? Nur wenn diese Sachen passen, muss es ja am Ende vielleicht tatsächlich keine sein.

Helena: Genau, weil bei einer Normalverteilung würden diese Sachen halt reichen, um das zu beschreiben, aber wir wissen ja nicht, ob die Sachen wirklich normal verteilt sind. Grundsätzlich hat man ja erstmal das Problem, man muss ja sehr viele Messungen machen, damit man am Ende wirklich diese Normalverteilung hat. Aber man guckt sich ja, wenn man jetzt zum Beispiel Menschen hat, die man misst, dann misst man ja auch nicht die gesamte Bevölkerung, sondern immer nur einen Bruchteil der Menschen, bei dem man bestimmte Sachen sich anguckt. Man zieht also eine sogenannte Stichprobe, also man sampelt, also sampeln ist letztlich nur das englische Wort für Stichprobe, also zum Beispiel zieht man 100 Personen aus einer Gesamtbevölkerung heraus. Und wenn man jetzt davon ausgeht, dass die 100 Menschen auch wirklich zufällig irgendwie ausgewählt wurden, ja, passt dann dazu, dass in der Gesamtpopulation diese Eigenschaft, die man sich jetzt anguckt, wirklich normal verteilt ist? Und die zweite Frage ist, ist jetzt wirklich auch diese Stichprobe zufällig? Die zweite Frage setzen wir jetzt erstmal voraus, dass man da schon irgendwie hingekriegt hat, dass die Stichprobe zufällig ist. Würde man jetzt, keine Ahnung, sich auf Körpergrößen beziehen, wie wir das ja schon mal gemacht haben, und man guckt sich jetzt nur Basketballspieler an, dann ist das vielleicht keine zufällige Stichprobe, mit der man eine Aussage über die Gesamtpopulation machen kann. Ja, und jetzt hat man im Wesentlichen zwei Möglichkeiten, wenn man halt so eine Stichprobe genommen hat, zu gucken, passt das denn zu einer Normalverteilung? Das eine ist das Plotting, also das grafische Darstellen, und das andere sind sogenannte statistische Tests.

Mit welchen Plots die Normalverteilung überprüfen? (00:35:55)

Janine: Genau, Helena sagt ja gerade Plotting, das grafische Darstellen. Damit ist das Visualisieren der Daten gemeint, also dass aus den zugrunde liegenden Daten eben ein Plot, ein Diagramm erzeugt wird, das dann als Bild interpretiert werden kann, beziehungsweise dessen Darstellung dann interpretiert werden kann. Wir haben darüber schon mal recht ausführlich in Folge 13 über eben Datenvisualisierung gesprochen, und vor allem darüber, dass Datenvisualisierung verschiedene Zwecke hat, unter anderem die Exploration, also das Erkunden von Daten, um sich mit ihnen und verschiedenen Aspekten der Daten dann vertraut zu machen, und auch die Verifikation spielt hier eine Rolle, also das Überprüfen, ob eine Annahme über die Daten und deren Interpretation halt richtig ist. Also wenn euch das Thema näher interessiert, dazu haben wir in Folge 13 geredet.

Helena: Ja, und Verifikation spielt hier insofern eine Rolle, weil die Annahme, dass die Daten normal verteilt sind, ist erst mal ein Modell, ein Modell, was man über die Daten hat. Und um das zu verifizieren, kann man eben bestimmte grafische Darstellungen verwenden, die man aber auch im Vorhinein schon mal zur Exploration nutzen kann. Also die haben durchaus verschiedene Zwecke. Und das Offensichtlichste erst mal, oder das Einfachste, ist hier das sogenannte Histogramm. Bei einem Histogramm teilt man quasi die Daten, die man hat, in spezifische Werte auf, die man dann zusammenfasst. Und je nachdem, wie viel man zusammenfasst, das wird dann binning genannt, also die Bereiche, ja zum Beispiel 1 cm Bereich bei der Körpergröße, und dann zählt man, wie oft ist dieser Bereich. Und das ist dann ein Histogramm. Und hier kann man natürlich wunderschön diese Glockenform sehen, wenn es normal verteilt ist. Also wenn man jetzt irgendwie sieht, ja die meisten sind bei den kleinen und bei den großen Werten, und dazwischen ist nicht so viel, dann ist es eindeutig nicht normal verteilt. Also wenn man dann eben eine Glockenform sieht, dann ist es möglicherweise normal verteilt. Und ja, diese Glockenform wird deutlicher zu erkennen, je mehr Daten man hat. Also wenn man einige tausend Daten hat, dann kann man das schon relativ deutlich sehen. Wenn man irgendwie 100 hat, dann sieht es möglicherweise halt komplett anders aus. Was nicht heißt, dass es nicht normal verteilt ist. So, eine Alternative dazu ist das sogenannte Quantil-Quantil-Diagramm oder auch QQ-Plot. Dabei werden die Daten gemäß ihrer sogenannten Quantile aufgetragen. Und ein Quantil ist dann zum Beispiel, wie viel der Daten liegen in den ersten 10%, wie viel liegen in den zweiten 10%, wie viel liegen in den dritten 10%. Im Prinzip ist der Median auch das 50-Quantil, weil es in der Mitte liegt, also bei 50%. Und dann würde man eben auf der einen Achse auftragen, wo die Messwerte hingehören. Und auf der anderen Achse würde man auftragen, was erwartet man denn, wenn das wirklich eine Normalverteilung ist. Und wenn man so einen Plot eben für eine normal verteilte Größe macht, dann liegen alle auf der einen Achse, auf der einen Linie, die quasi direkt zwischen den beiden Achsen lang geht. So eine 45-Grad-Linie zwischen den Achsen. Und wenn man jetzt unten, also bei 0 rum, sieht, da ist so eine Kurve, die sich erst auf diese Linie annähern muss. Und die bewegt sich vielleicht am Ende von den Daten auch wieder von dieser Linie weg. Dann sieht man, dass es nicht normal verteilt.

Janine: Also es muss tatsächlich sehr gerade heraus aus dem Nullpunkt hervorgehen.

Helena: Ja, genau. So ein bisschen, was mal rausfällt, dann ist das okay. Aber je mehr das rausfällt, desto eindeutiger ist es nicht normal verteilt.

Wie mit statistischen Tests die Normalverteilung überprüfen? (00:39:44)

Janine: Ja, und das ist die eine Variante, wenn das Ganze über, also wenn man herausfinden möchte, ob das eine Normalverteilung ist, über visuelle Darstellung. Das andere war ja statistische Tests. Denn manchmal möchte man ja vielleicht das einfach in Zahlen sehen und direkt benennen können. Wie laufen denn diese statistischen Tests ab?

Helena: Ja, also statistische Tests werden auch manchmal Hypothesentests genannt. Und dann gibt es immer zwei Hypothesen. Eine davon ist die sogenannte Nullhypothese, die man erst mal annimmt für den Normalfall. Also hier, ist es denn eine Normalverteilung? Und dann gibt es immer noch die Alternativhypothese, die dann besagt, es ist keine Normalverteilung in diesem Fall. Ja, und dann rechnet ein Test die Wahrscheinlichkeit aus, mit der durch Zufall, ja, die quasi besagt, wie wahrscheinlich ist, dass durch Zufall einfach jetzt die Nullhypothese stimmt, obwohl die Daten vielleicht auf andere Weise erzeugt worden sein könnten. Ja, und diese Wahrscheinlichkeit, mit der dann eben diese These stimmt, ist dann der sogenannte p-Wert. Der p-Wert, also p, ja, für percentage, ist dann oft 0,05, beziehungsweise 5%. Das ist so, in einem von 20 Fällen ist dieses Ergebnis durch reinen Zufall erzeugt worden. Und das ist dann, diese 5% wird sehr oft einfach als die Grenze angenommen. Also das hat natürlich auch gewisse Schwierigkeiten, wenn man jetzt immer von diesem Wert ausgeht, was jetzt nicht Teil dieser Folge ist. Also man sollte diesen 5% nicht immer vertrauen, weil man kann ja auch vorher bereits mit den Daten etwas gemacht haben, die dazu führen, dass diese, ja, 20% oder 5%, also dieses 1/20 anders erzeugt wird. Also wenn man 20 verschiedene Sachen testet und eins davon stimmt, dann heißt das ja nicht, dass das wirklich Sinn macht, sondern dass das reiner Zufall sein kann. Aber darum soll es jetzt erstmal nicht gehen. Es soll jetzt darum gehen, ja, wenn jetzt dieser Wert also unter 0,05 ist, also unter 5%, dann würde man die Nullhypothese verwerfen und die Alternativhypothese annehmen. Ja, da ist halt immer noch ein bisschen Interpretationsspielraum drin. Gut, und da gibt es jetzt verschiedene Tests, zum Beispiel den sogenannten Shapiro-Wilk-Test oder den Kolmogorov-Smirnov-Test. Aber es gibt insgesamt 20 verschiedene Tests, mit der getestet werden kann, ob etwas normal verteilt ist, je nachdem, welche Details einem wichtig sind. Und ein Problem ist hier jetzt irgendwie, ja, ist ja schön, dass es eine Normalverteilung ist, wenn man die Alternativhypothese nicht annehmen kann, weil der p-Wert über 5% ist. Aber irgendwie fühlt es sich auch ein bisschen komisch an, dass das, was man testen will, dann eigentlich nicht die Nullhypothese ist. Weil normalerweise nimmt man immer den, also in den meisten statistischen Tests würde das, was einen interessiert, ja die Alternativhypothese sein und die Nullhypothese ist ja, der Effekt ist nicht vorhanden. Und die Alternativhypothese, dann wäre ja der Effekt ist vorhanden und das ist eine Normalverteilung. Und dass das hier irgendwie andersrum ist, ist so ein bisschen, ja, schwierig von der Interpretation her. Letztlich besagt es einem dann, ja, das meiste kann man erstmal irgendwie als normal verteilt annehmen, weil es ist ja nur mit 10%iger Wahrscheinlichkeit normal verteilt. Ja, keine Ahnung, ich finde diese Tests, die sind durchaus hilfreich, weil manchmal ist es eben, dieser p-Wert kann ja auch, ja, sehr klein werden in manchen Fällen. Und ich habe das zum Beispiel auch auf diese Data-Saurus-Dozen-Sachen angewendet und die Y-Werte waren irgendwie überhaupt nicht normal verteilt bei den Sachen, die ich ausprobiert habe. Und die X-Werte waren laut Shapiro-Wilk-Test durchaus normal verteilt, aber dann nicht mehr nach Kolmogorov-Smirnov-Test. Also es macht schon Sinn, wenn man das macht, auch mehrere von diesen Tests zu machen. Und sie geben einem durchaus auch eine Idee. Und insbesondere bei kleineren Stichproben kann das hilfreich sein, dass man zumindest sagt, ja, es ist nicht unplausibel von normal verteilt auszugehen, weil dann kann man auch besser weiterrechnen. Ja, dabei muss man dann allerdings noch bedenken, dass bei sehr großen Stichproben wie 1000 Datenpunkte diese Tests auch immer empfindlicher werden. Und Sachen, die dann wunderbar wie, ja, eine Glocke aussehen im Histogramm, werden dann plötzlich als eindeutig nicht normal verteilt angesehen, weil es irgendwo ein paar Ausreißer gibt. Und dann ist natürlich immer die Frage, will man jetzt lieber diesen Tests glauben oder lieber dessen, was man gesehen hat? Also die sind nicht automatisch besser als ein Plot, nur wenn man eine Zahl rauskriegt. Weil man muss sich auch immer die Frage stellen, wenn man etwas auf Normalverteilung testet, warum mache ich das und woran bin ich interessiert? Und wenn ich jetzt kleinste Abweichungen in Daten sehen will, um die besser zu analysieren, dann ist es natürlich interessant, das hiermit festzustellen, ja, es ist nicht exakt normal verteilt, da ist es irgendwie eine Abweichung, die will ich mir genauer angucken. Dann ist das gut. Aber wenn mich das gar nicht interessiert, sondern mir es eher um, ja, wie sieht es denn allgemein aus, geht, dann bleibe ich doch lieber bei der Normalverteilung, wenn die im QQPlot oder im Histogramm eigentlich sehr gut normal verteilt aussehen. Also in der Physik zum Beispiel hat das auch was damit zu tun, wie man, ja, Messfehler berechnet. Also die sind ja, man geht ja immer erst mal von normal verteilt aus, deswegen ja auch Fehlerkurve. Wenn man jetzt aber feststellt, die Sachen sind nicht normal verteilt, die Fehler, dann muss man ja ganz anders mit den Messfehlern weiterrechnen, als wenn die normal verteilt sind. Aber gleichzeitig ist in der Physik auch manchmal genau dieser Punkt, man will ja genau diese Abweichung herausfinden. Also, ja, mit normal verteilten Größen weiterzurechnen ist halt viel einfacher, als wenn das andere sind, aber man kann das auch machen. Man kann mit Wahrscheinlichkeitsfunktionen rechnen. Man muss nicht immer nur Mittelwert und Standardabweichung benutzen.

Janine: Sehr gut. Ich glaube, dann haben wir annähernd alles einmal gesagt, was wir gesagt haben wollten, oder?

Helena: Ja, ich denke auch.

Fazit (00:46:20)

Helena: Kommen wir zum Fazit. Also mein Fazit bei dieser Folge ist, wenn man genug zufällige Dinge, die sich überlagern und unabhängig voneinander sind, ja, zusammenpackt, dann bekommt man immer eine Normalverteilung und deswegen heißt die auch "normal".

Janine: Ja, das ist, glaube ich, eine ganz gute Zusammenfassung. Ich habe eigentlich diesen sehr knappen Fazit nicht sehr viel hinzuzufügen, außer vielleicht nochmal so der kurze Abriss durch die Folge. Wir hatten damit begonnen, dass die Normalverteilung von Gauss eingeführt wurde und veröffentlicht wurde und sich auch danach noch weiterentwickelt hat und eben auch mit anderen Konzepten zusammenhängt, wie zum Beispiel dem zentralen Grenzwertsatz, der eben besagt, dass wenn ich etwas häufig genug wiederhole, dann wird es eine Normalverteilung sein können und dergleichen. Also, ja, was Helena eben auch schon gesagt hatte, das nehme ich auf jeden Fall daraus mit. Und auch, ja, wie ich unterscheiden kann, es liegt eine Normalverteilung vor oder nicht, da sind eben verschiedene Methoden denkbar. Zum einen über das Erstellen von Plots, wie dem Histogramm oder dem QQ-Plot, oder eben halt mit den statistischen Tests, wo eben auch was ganz Gut ist, wenn man manche Sachen miteinander abgleicht, je nach Fragestellung auch, wie Helena gerade ausgeführt hat. Ja, ich denke, das ist so ein bisschen das Wichtigste, was wir heute gesagt haben. Oder was Helena heute gesagt hat, meine Redeanteil war etwas kleiner.

Nächste Folge: Gesundheitsdaten im September (00:47:57)

Helena: Ja, und in unserer nächsten Folge wollen wir dann mal über das Thema Gesundheitsdaten sprechen. Das ist ja ein durchaus sehr wichtiges und großes Thema und gerade auch angesichts dessen, dass jetzt gerade die elektronische Gesundheitsakte verpflichtend für alle eingeführt wird. Ja, den Aspekt finde ich jetzt ehrlich gesagt etwas schwieriger, deswegen konzentrieren wir uns eher auf den Aspekt der Daten, die wir selbst erheben und beobachten können, wie zum Beispiel Selbstüberwachung mit Armbändern oder Gesundheits-Apps. Und hier spielt natürlich auch die Sicherheit dieser Daten eine wichtige Rolle.

Call to Action (00:48:35)

Janine: Genau, und wenn ihr das nicht verpassen wollt, weil versehentlich fast alle von uns, die ein Smartphone besitzen, garantiert Gesundheits-Apps auf diesem Handy haben, die fleißig Daten erfassen, dann folgt uns doch auf Mastodon unter datenleben@podcasts.social. Da veröffentlichen wir immer, wann eine Folge rausgekommen ist. Oder guckt auf unserer Webseite vorbei, www.datenleben.de, da könnt ihr uns auch gerne Feedback hinterlassen oder eben ganz altmodisch per E-Mail. Wir freuen uns immer sehr über Kommentare zu unseren Folgen und nehmen auch Themenvorschläge gerne an. Und falls euch unsere Arbeits- und Denkweise gefällt, könnt ihr uns auch als Data Scientist für Analysen oder Projekte buchen.

Helena: Ja, dann bleiben wir nur noch für eure Aufmerksamkeit zu danken und bis zum nächsten Mal. Ciao!

Janine: Tschüss!


Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert