dl043: perspektiven auf data science
Wir glauben, dass in Data Science sehr viele verschiedene Perspektiven stecken. Deswegen wollten wir mal verschiedene Menschen aus dem Bereich Data Science sprechen und fragen, was sie so machen. In kurzen und nicht ganz so kurzen Interviews wollten wir herausfinden: Was macht ihr als Data Scientist/mit Data Science? Wie seid ihr dort hingekommen, das jetzt zu machen? Und: Was interessiert oder begeistert euch am meisten an dem, was ihr tut? Es wird um Sensordaten gehen, um die verschiedenen Wege, die Menschen zu Data Science gebracht haben und natürlich auch... große KI-Modelle wie Chat-GPT.
Bilder zur Folge
Links und Quellen
- datenleben
- www.datenleben.de
- Social Media: Mastodon @datenleben@podcasts.social
- YouTube: @datenleben
- Erwähnte datenleben-Folgen
- Datenzwerge
- Kontakte
- foosel: https://foosel.net/l
Romses: @Romses@chaos.social
Emma: @comoelcometa@chaos.social
- foosel: https://foosel.net/l
Schlagworte zur Folge
Data Science, Sensordaten, Ausbildung, Naturwissenschaften, Psychologie, Sprachwissenschaft, Künstliche Intelligenz, Maschine Learning, Lebenswege
Intro (00:00:00)
Thema des Podcasts (00:00:18)
Helena: Willkommen zur 43. Folge beim Datenleben-Podcast, dem Podcast über Data Science. Wir sind Helena
Janine: und Janine
Helena: und möchten euch die Welt der Daten näher bringen. Was ist Data Science, was bedeuten Daten für unser Leben und was können wir aus ihnen lernen? Wer schon immer mehr darüber wissen wollte, ist hier richtig, denn diesen Fragen gehen wir nach.
Thema der Folge (00:00:37)
Janine: Und diese Folge heißt Perspektiven auf Data Science, weil nämlich eine ganz konkrete Idee dahinter steckt. Wir wollten mit verschiedenen Menschen aus dem Bereich Data Science sprechen und fragen, was sie so machen. Das Ganze war als Idee damit verknüpft, dass ich auf dem Chaos Communication Camp unterwegs war, dem alle vier Jahre stattfindenden großen Event des Chaos Computer Club, und dann dort in Person mit Menschen reden wollte. Das klang erst mal so ganz schön, aber wie das oft so ist mit Ideen, das kommt manchmal ganz anders, aus verschiedenen Gründen hat sich das nicht so ergeben. Deswegen habe ich es nur zu einem Interview auf dem Camp geschafft, aber ich habe nachträglich noch zwei Personen gefunden, die sich dann remote mit mir getroffen haben. Und um diese Interviews soll es heute gehen. Und ja, deswegen könnt ihr euch auf drei interessante Interviews freuen, rund um oder mit Menschen, die Dinge mit Data Science machen oder auch nicht wirklich machen.
Warum ist das Thema interessant? (00:01:43)
Helena: Ja, Data Science ist ein sehr vielfältiges Gebiet und deswegen dachten wir uns, wäre doch mal spannend, auch andere Stimmen und nicht immer nur meine zu hören. Insbesondere Lebens- und Ausbildungswege anderer Menschen sind unterschiedlich und können vielleicht auch inspirieren für die eigene Zukunftsplanung.
Janine: Genau. An dieser Stelle kommt sonst ein Einspieler, den lassen wir an dieser Stelle mal aus in dieser Folge, weil wir nicht wussten, wie wir das irgendwie zusammenführen können und uns gedacht haben, dann starten wir doch mal gleich direkt mit der Folge. Ein kleiner Disclaimer vorweg, diese Folge ist etwas experimenteller als sonst. Also allein von der Idee her, mehrere Interviews zu führen, die sehr kleine Ausschnitte abbilden. Und ja, das Ganze schlägt sich dann auch in der Audioqualität etwas nieder. Es gibt Außenaufnahmen und die sind offensichtlich noch nicht ganz meine Stärke. Vor Ort wirkte alles etwas weniger dramatisch, auch beim Reinhören der Probeaufnahme. Im Nachgang ist es vielleicht doch ein bisschen viel Atmosphäre. Also es war schon die Idee, Atmosphäre zu kriegen, aber es ist vielleicht ein bisschen viel geworden. Deswegen für die auditiv-sensiblen Menschen, wie mich selbst auch, vorweg, jedes Interview, auch die beiden, die dann remote gemacht wurden, klingt deutlich anders.
Helena: Ja, und notfalls überspringt ein Interview die Audioqualität ist sehr unterschiedlich in dem Sinne davon, dass die anderen beiden Interviews keine Atmosphäre haben. Das heißt, wenn die stört, zu viel Bass oder so auf den Ohren ist, kann man es einfach überspringen und die anderen sind dann anders.
Janine: Ja, und zum Inhaltlichen. Im Wesentlichen haben wir drei Fragen vorbereitet. Nämlich, was machst du im Bereich Data Science? Wie bist du dahin gekommen und was interessiert dich im Besonderen daran? Die variieren leicht in den einzelnen Interviews und besonders im ersten Interview werdet ihr sehen, dass das doch noch mal völlig aus dem Rahmen fällt. Aber... nun ja, unser Plan ist jetzt, die Interviews laufen zu lassen und Elena und ich sagen dann vielleicht noch ein paar Sachen drumherum. Gucken wir mal, wie dieses Experiment so läuft. Und damit, hier ist das erste Interview.
(Kurzer Musikschnippsel)
Interview zu den Datenzwergen (00:04:01)
Janine: Ich bin hier auf dem Camp, auf dem Chaos-Communication-Camp vom Chaos-Computer-Club. Es ist das Jahr 2023 und wir haben Tag 4, d.h. alle Menschen haben schon ein bisschen was hinter sich. Einige lange Nächte, einige Unwetter, einige heiße Tage, es ist gerade auch sehr heiß. Und trotzdem habe ich zwei Menschen gefunden, die mit mir reden möchten und zwar sitzen bei mir Romses und Foosel, weil ich einen Aufruf gemacht habe, wer über Data Science reden möchte. Und die beiden ins Boot geholt wurden, oder habt ihr euch selbst ins Boot geholt, ich weiß es gerade nicht.
Romses: Du hast einen Aufruf auf Mastodon gestartet und ich habe geantwortet und habe gefragt, ob das Projekt für euch interessant ist oder nicht.
Janine: Ja, und ich habe gesagt ja und deswegen seid ihr jetzt hier und ich freue mich sehr darüber. Ihr habt nämlich die Datenzwerge dabei.
Romses: Genau.
Foosel: Richtig.
Janine: Erste Frage, was macht ihr mit Data Science, macht ihr etwas mit Data Science?
Foosel: Nein.
Romses: Naja, ich habe zu Hause für mich privat ein paar Sensoren in meinem Haus verteilt, in meinem Garten verteilt. Ich habe auch einen Sensor, der bei dem ehemaligen Luftdaten-Info-Projekt mitmacht, das jetzt glaube ich die Sensor Community ist.
Janine: Ja.
Romses: Viel mehr mache ich auch nicht mehr mit Data Science, aber Daten sind interessant und deswegen mache ich da sowas.
Foosel: Ja, ich würde halt auch sagen, absolut kein formeller Data Scientist, aber meine halbe Wohnung ist vollgestopft mit Sensorik, deswegen, ich finde es einfach spannend mir Dashboards anzuschauen und Temperaturdaten, Environmental-Kram zu visualisieren, rauszufinden, was in der Welt um mich herum passiert.
Janine: Ja, sehr cool. Und ihr habt Datenzwerge. Was sind Datenzwerge?
Foosel: Datenzwerge sind im Grunde genommen kleine Wetterstationen, sagen wir mal Gartenzwerge mit einem Innenleben. Wir haben da drinnen einen Temperaturfühler, Luftdruck, Luftfeuchtigkeit, einen kleinen Sensor vorne in der Mütze, der den UV-Index misst und ein Mikrofon im Inneren, das versucht, den Schalldruck auch noch zu bestimmen. Ich sage versucht, weil wir da ein bisschen naiver waren, als wir hätten sein sollen anscheinend. Also es stellt sich heraus, Sound-Processing ist sehr schwierig. Zumindest auf dem äußerst günstigen Hardware-Kram, auf dem wir uns da bewegen.
Romses: Ja. Technisch gesehen haben wir da einen ESP8266 drin, der dann einen BMI280 ansteuert. Das ist ein Wetterdatenchip, der eben die drei Daten, Temperatur, Luftfeuchtigkeit, Luftdruck aufnimmt. Dann haben wir eine kleine Fotodiode drin, ein kleines UV-Sensing-Modul, was eben in der Mütze klebt, was über einen analogen Ausgang dann eben den Wert ausgibt, der...
Foosel: ...gemappt werden kann...
Romses: ...der gemappt werden kann auf den UV-Index. Ein kleines Mikrofon drin.
Foosel: Und das Ganze läuft halt eben über so Standard-Lipos, die man so in Powerbanks findet. Da haben wir sie auch her. Und läuft so drei bis vier Tage auf einer Zelle, weil die Dinger halt wirklich nur 30 Sekunden wach sind und dann jeweils zehn Minuten schlafen. Davon haben wir zehn Stück hier auf dem Camp verteilt.
Janine: Ja.
Foosel: Wir haben auch schon die ersten Leute, die die alle gefunden haben, denen wir jetzt eine Mate schulden.
Janine: Eine kleine Schnitzeljagd.
Romses: Ja.
Foosel: So ein bisschen, ja. Also wir haben das nicht geplant so, aber als dann die ersten Leute anfingen zu sagen, wir haben den gefunden und den gefunden und den gefunden und den gefunden, haben wir dann halt gesagt, okay, wenn du alle findest, dann sag uns Bescheid.
Janine: Okay. Wie seid ihr grundsätzlich auf die Idee gekommen? Also du hast ja gerade schon gesagt, deine Wohnung steckt voller Sensorik und du guckst dir gerne so Sachen an und du hast auch Sensoren zu Hause. Was war so die initiale Idee zu den Datenzwergen?
Romses: Das war auf der GPN diesen Jahres.
Janine: Ja.
Romses: Wir waren zusammen auf der GPN und haben das Event genossen. Und dann so am letzten Tag sind wir dann auf unserem Hotel zur GPN gegangen, haben darüber geredet. Ja, es ist ja bald das Camp und da gibt es bestimmt wieder auch coole Sachen. Und eigentlich bräuchten wir ja auch irgendein cooles Projekt. Und was könnte man denn da machen? Irgendwas mit Sensoren. Und es war heiß, wir konnten ja Temperatur und so weiter aufnehmen.
Foosel: Und dann kam dieses Wortspiel.
Romses: Genau.
Foosel: Gartenzwerg, Datenzwerg.
Janine: Und ihr habt ja auch gerade einen mitgebracht. Ich sehe ihn vor mir. Das ist wirklich ein putziges, kleines, 3D gedrucktes Kerlchen. Und ja, so sehr gartenzwergig. Ihr habt vorher auf Mastodon auch immer ganz viel schon geschrieben. Ich hatte das vorher tatsächlich schon gesehen und deswegen mich auch gefreut, dass ihr euch gemeldet habt. Und habt so ein bisschen das Projekt begleitet. Ich habe immer so 3D-Drucke zwischendurch gesehen.
Romses: Ja, es gab das Hashtag Datenzwerg-Leaks. Da wurden immer mal wieder Informationen von uns geleakt zum aktuellen Stand des Projektes.
Foosel: Genau.
Janine: Sehr gut.
Foosel: Ja.
Janine: Also wer sich dafür interessiert, wie sich das so entwickelt hat, kann wahrscheinlich auf euren Mastodon-Accounts noch mal nachgucken, wie sich das so entwickelt hat.
Foosel: Oder auch auf datanome.de...
Janine: Ja.
Foosel: ...weil da haben wir auch nochmal die Historie zusammengefasst. Da gibt es auch eine Bauanleitung. Da sind sämtliche Dashboards verlinkt. Die Dashboards werden das Camp nicht ewig überleben, weil wir die Serverinfrastruktur wahrscheinlich irgendwann zusammenpacken und die Daten einfach dann auch zusammenzippen und irgendwo ablegen, dass Leute darauf zugreifen können.
Janine: Ah, sehr schön.
Foosel: Aber halt eben nicht jetzt ewig die Infrastruktur weiterlaufen lassen wollen, wo die Dinger jetzt gerade hinloggen. Aber ja, alles was historisch ist, wird da landen und da ist auch eine Masto-W all verlinkt und alles Mögliche.
Janine: Habt ihr dann auch vor, das vielleicht auf weitere Events mitzubringen - so auf den Congress?
Foosel: Ursprünglich nein.
Romses: Aber das ist eigentlich jetzt mehr und mehr die Idee gewachsen. Ich habe bereits 100 Ideen für eine Version 2 von dem Datenzwerg.
Foosel: Ja, ja. Also wir haben, ne.
Romses: Du hast natürlich auch 100 Ideen dafür. Und vermutlich wird es darauf hinauslaufen, dass wir jetzt erstmal die Plattform stabilisieren, ein bisschen professionalisieren und dann mal gucken, ob man dann eventuell mal mehr davon produziert.
Foosel: Ja.
Romses: Hängt von vielen Faktoren ab.
Foosel: Für den Kongress hatten wir zum Beispiel schon die schnappste Idee, ob wir es vielleicht irgendwie schaffen, irgendwo günstig an CO2 Sensoren zu kommen, die auch wirklich ordentlich was messen können. Weil gerade Indoor, wir haben immer noch eine Pandemiesituation. Das ist ja alles so eine Sache. Da wäre es vielleicht auch ganz interessant, wenn man die ein bisschen verteilen kann. Nun werde ich wahrscheinlich auf dem Kongress nicht sein.
Romses: Ja, aber den Part übernehme ich dann.
Foosel: Den kann er dann. Das macht er dann gegebenenfalls. Und auf jeden Fall sind wir halt definitiv am Brainstormen in Richtung spätestens in vier Jahren.
Romses: Ja.
Janine: Ah, sehr schön. Also dann kann man irgendwann die Historie über die Events, auch die Daten vergleichen und vielleicht auch so eine Art Klimaprotokoll daraus ableiten.
Foosel: Es wäre auf jeden Fall auch sehr spannend, dem Ding auch irgendwie einen Regensensor zu verpassen. Solarzelle, damit wir nicht laufend Batterien tauschen müssen hier. Es gab auch schon die Idee eines Anemometers. Ja. Vielleicht so.
Janine: Was ist ein Anemometer?
Foosel: Windmessung.
Janine: Ah!
Foosel: Ja.
Romses: Könnte man hier auf die Mütze von dem Zwerg so einen kleinen Propeller verpassen.
Foosel: Und dann halt die Drehgeschwindigkeit messen.
Janine: Ja.
Foosel: Aber ja. Also insgesamt ist das ganze Projekt... hat gebraucht von der Schnapsidee bis zum Deployment auf dem Camp ziemlich genau zwei Monate.
Janine: Oh, das ist rasant.
Romses: Ja.
Foosel: Ja. Also deswegen ist halt alles so ein bisschen mit der heißen Nadel gestrickt. Aber dafür war es erstaunlich stabil jetzt die letzten Tage. Es gab hier und da ein paar kleine Ausfälle, aber eigentlich nichts gravierendes. Nichts, was wir nicht hätten irgendwie da beheben können. Am Anfang gab es ein bisschen Probleme mit dem WLAN, aber auch das ist inzwischen weitgehend in Ordnung. Je nachdem, wo auf dem Camp man sich befindet.
Janine: Ja.
Foosel: Ja, und das Schöne war halt eben auch jedes Mal, wenn wir mit den Zwergen hier irgendwie übers Camp marschiert sind, weil wir sie gerade gewartet hatten, weil wir auch, wir hatten sie mehr so Stück für Stück deployed.
Janine: Ja.
Foosel: Wir sind laufend angehalten worden. Was ist das denn? Die Leute haben einfach nur gelächelt und auch sehr viel Gesprächsstoff, waren dann auch neugierig, wo sie die Daten finden. Deswegen ist auch ein Sticker auf jedem Datenzwerg, wo halt erklärt wird, wo er das findet, wo das gefunden wird.
Janine: Und mit QR-Code sehe ich gerade.
Romses: Genau.
Foosel: Ja. Und halt sowohl auch in Deutsch als auch in Englisch und wo halt eben auch informiert wird, hey, ich bin einer von zehn, wo sind die anderen?
Janine: Ja.
Foosel: Und das hat wohl dann wohl auch so eine leichte Schnitzeljagd gespawnt bei manchen Leuten hier, was auch sehr schön zu sehen ist. Wir sehen dann auf Mastodon immer mal nur so morgens, hey, ich habe einen Zwerg gefunden. Das ist großartig.
Janine: Und sie haben auch alle einen Namen.
Foosel: Ja.
Romses: Es gibt sieben kanonischen Namen.
Foosel: Naja, Disney-kanonischen Namen.
Romses: Disney-kanonischen Namen. Und wir hatten aber insgesamt Material für zehn Datenzwerge. Dementsprechend sind drei zusätzliche Zwerge entstanden.
Foosel: Ja, also wir haben halt eben...
Romses: Kinky, Nerdy und Hefty.
Foosel: Hefty. Wir haben einen Schlumpf rekrutiert noch. Ja.
Janine: Sehr gut.
Foosel: Also es sind zehn Stück und wir wissen grob, wo sie stehen. Immerhin.
Janine: Haben Sie auch einen GPS-Sensor drin?
Romses: Nein.
Foosel: Nee, wir haben tatsächlich überlegt, aber das hätte den Kosten der (unverständliches Wort) einfach komplett explodieren lassen. Insgesamt sind wir, glaube ich, jetzt für alle zehn Zwerge beide so mit so um die 100 Euro reingegangen. Ja. Pro Zwerg kann man sagen, so irgendwas zwischen 20 und 25 Euro steckt da jetzt an Material drin.
Janine: Ja.
Foosel: Über die Arbeit reden wir nicht.
Romses: Ja.
Janine: Ein Liebhaber-Projekt.
Foosel: Ja, auf jeden Fall.
Janine: Und ihr hattet eben noch erwähnt, auf der Internetseite wäre eine Bauanleitung.
Romses und Foosel: Ja.
Janine: Das heißt, ihr habt da einmal alle technischen Details aufgelistet, welche Inhalte drin sind.
Foosel: Alles, was man braucht. Welche Sensorik.
Romses: Wie man das auf einem Perfboard anordnen kann. Wie man dann die Lötspuren setzen muss. Wir haben auch, das müssen wir jetzt nochmal gucken, ob das tatsächlich dem finalen Stand entspricht. Wir haben auch so genannte Gerber-Files dastehen. Mit denen kann man zu einem PCB-Manufaktur gehen und kann sich dann ein gedrucktes PCB besorgen. Janine: Ah ja.
Romses: Was der ganzen Sache natürlich dann nochmal ein bisschen eine professionelle Aussehen gibt.
Janine: Ja. Und die 3D-Druckdatei, ist die auch mit dabei?
Foosel: Das ist alles dabei. Ja.
Janine: Perfekt.
Foosel: Ich hoffe, dass niemand komplett mich versucht, deswegen zu steinigen. Ich musste furchtbare Dinge in Blender tun, um diesen Zwerg. Das war ein Zwerg, den haben wir online gefunden unter einer offenen Lizenz. Das Grundmodell. Wir haben das, wie war das, 20% nach oben und 40% in beide Richtungen.
Romses: Er ist ein bisschen chonkier geworden.
Foosel: Er ist ein Chonky-Guy jetzt, ja. Und da musste halt noch ausgehöhlt werden. Es mussten Mounting-Points für Magneten, damit wir sie halt eben wirklich öffnen können und einfach an die Innereien drankommen.
Janine: Er wurde gerade halbiert, für alle, die das jetzt nicht sehen können. Die Füße bleiben stehen und oben im oberen Teil, das tatsächlich hohl ist, da steckt die ganze Technik drin.
Foosel: Genau. Und die Verbindungspunkte sind halt jeweils drei Magneten und es ist noch so ein bisschen so ein Lüftungsschlitz, um so leicht für eine Ventilation zu sorgen.
Janine: Ja.
Foosel: Das musste halt alles irgendwie in dieses 3D-Modell rein, was uns nur als Mesh vorlag. Also nicht als, wir hatten da keine Step-Dateien, die einfach zu editieren gewesen wären, sondern da musste halt wirklich mit Blender einzelne Dreiecke gesetzt werden. Das habe ich getan. Es ist ein bisschen...
Romses: Da bin ich dir auch sehr dankbar für.
Foosel: ...es ist hässlich an ein paar Stellen, also vor allem vom Design her, aber es druckte.
Romses: Es musste schnell gehen.
Foosel: Ja. Insgesamt haben wir 60 Stunden, nur für die Zwerge, die jetzt hier deployed sind, an Druckzeit auch gehabt. Also das Oberteil brauchte irgendwie fünf Stunden pro Zwerg, das Unterteil eine und mit einer sehr großen Nozzle.
Janine: Ja.
Romses: Die ersten zwei elektronischen Innenleben haben jeweils acht Stunden gebraucht, da haben wir uns zusammengesetzt, haben an einem Wochenende mal die ersten zwei gebaut, erstmal so designt, wie soll das überhaupt aussehen und dann haben wir uns ein zweites Wochenende gedruckt und die restlichen acht zusammengebaut.
Foosel: Von Hand, alle gelötet.
Romses: Alles handgelötet.
Foosel: PCB wäre schöner gewesen, aber wir waren uns nicht sicher, ob das zeitlich noch hinkommt, weil wenn da ein Fehler auf der Schaltung gewesen wäre, den dann zu bereinigen, das nochmal machen zu lassen und so, und so haben wir es halt einfach alles von Hand gemacht.
Janine: Ja, also auch eine aufwendige Betreuung der Datenzwergenherde sozusagen.
Foosel: Ja, wir haben hier einige Laufkilometer mittlerweile auf den Schuhen drauf.
Janine: Schön, ich finde es ein wundervolles Projekt, dass ihr euch darum kümmert und auch die Daten zur Verfügung stellt, damit Menschen da nochmal reingucken können, auch wie das Camp so war und vielleicht mit dem Nächsten vergleichen können. Habt ihr noch irgendetwas zu sagen, zu droppen? Was macht ihr sonst so? Möchtet ihr noch irgendwelche Projekte highlighten sonst? Oder habt ihr noch was?
Foosel: Ja, ich meine, also lass es mich so sagen, das ganze mit dem 3D-Druck ging mir sehr einfach von Hand, weil ich auch die Maintainerin und Erfinderin von Octoprint bin, Frontend für 3D-Drucker recht weit verbreitet und das war dann so ein Projekt, wo ich endlich auch mal wieder selber zum Drucken kam und nicht immer nur die Ansteuerungssoftware für den Drucker geschrieben habe. Von daher, ja.
Janine: Sehr schön.
Romses: Ja, wie gesagt, ich habe jetzt eigentlich kein Irgendwie öffentlich sichtbares Projekt, von dem man mich kennen könnte oder so, aber ich baue halt schon privat, ich habe da ein großes Interesse dran. Jede Menge auf dieser Plattform ESP8266, die wir hier haben. Das ist so mein Feld-, Wald- und Wiesencontroller, mit dem ich gerne arbeite und die Sensoren waren mir auch relativ gut bekannt. Und dazu haben wir jetzt, wir haben noch gar nicht über die Software gesprochen. Die Firmware, die auf den ESPs läuft, ist ein ESPHome. Das ist ein Projekt, was aus der Home Assistant Community kommt.
Janine: Ja.
Romses: Und die Software haben wir so ein kleines bisschen gehijackt. Also wir haben die Haupt-API, die das Ding normalerweise verwendet, haben wir abgeschaltet und haben aber unsere eigene API dann dafür eingebaut. Das Ding stellt auch öffentlich zwei API-Endpunkte bereit. Das eine ist eine Influx-DB, das ist eine Datenbank, auf die wir lesenden Zugriff ermöglichen. Damit kann man sich die komplette Historie der Zwerge angucken. Und dann gibt es als zweite API noch eine MQTT-API, die dann jeweils immer nur die aktuellen Werte anzeigt.
Janine: Das heißt, so ein bisschen reingefrickelt und ein bisschen anders gemacht. Aber wenn ich jetzt zum Beispiel ein Home Assistant zu Hause hätte und würde mir so ein Datenzwerg nach eurer Anleitung zusammenbauen, könnte ich den dann in den Garten setzen und mit dem eigenen Home Assistant connecten.
Romses: Genau.
Foosel: Absolut, ja. Man müsste vielleicht eine kleine Änderung noch an der Firmware-Datei... Also man sollte dazu sagen, ESPHome erlaubt einem, dass man im Grunde genommen nur so eine Konfigurationsdatei anlegt, die ist in YAML geschrieben. Das ist relativ easy eigentlich. Also wesentlich easier auf jeden Fall, als wenn man jetzt anfangen müsste, C-Code zu schreiben, um irgendwas anzupassen. Da müsste man eine Kleinigkeit anpassen, dann könnte man das auch direkt in seinen Home Assistant loggen lassen. Und ja, das hat uns halt... Also ursprünglich wollten wir ja eigene Firmware schreiben, ...
Romses: Ja.
Foosel: ...aber wir hatten dann ein Prototyp auf ESPHome aufgesetzt und festgestellt, wie unglaublich viel Zeit uns das einfach gespart hat jetzt. Also auch gerade mit Sensorik, die da noch angebunden werden musste.
Janine: Das glaube ich. Also wir haben einen Home Assistant auch zu Hause, deswegen frage ich auch noch mal nach. Da wurde schon mal dazu angehalten, mich damit auch mal zu beschäftigen und in der YAML Sachen zu konfigurieren. Das kann man wirklich, wenn man sich das mal angeguckt hat, eigentlich ganz gut nachvollziehen. Es gibt eine gute Doku dazu. Man kann das wirklich gut integrieren, glaube ich, wenn man das eh schon zu Hause hat.
Romses: Also im Großen und Ganzen die einzigen Änderungen, die gemacht werden müssen, man muss das heimische WLAN jetzt anpassen, weil wir haben jetzt hier das Camp-WLAN aktiviert. Dann muss man die ESPHome-API wieder aktivieren und bei Bedarf das InflexiBI-API und die MQTT-API deaktivieren. Und dann ist man voll kompatibel mit Home Assistant.
Foosel: Ja.
Janine: Sehr cool. Schön. Also habt ihr auch noch ein sehr nachhaltiges Projekt gemacht.
Foosel: Versehentlich.
Janine: Dass Leute dann auch zu Hause nachbauen können, um Sachen zu machen. Sehr schön. Das klingt sehr gut. Ja, dann sind wir, glaube ich, am Ende. Und ich habe mich gefreut, mich mit euch unterhalten zu können darüber. Danke, dass ihr Zeit hattet hier auf dem Camp bei der Hitze auch noch mal. Wahrscheinlich macht ihr das die ganze Tag eh schon, über Datenzwerge zu reden.
Foosel: Recht viel, ja.
Janine: Und das dann auch noch mal für uns gemacht habt. Ja, war sehr schön. Vielen Dank und Wiedersehen.
Romses: Ich habe zu danken.
Foosel: Vielen, vielen Dank.
(Kurzer Musikschnippsel)
Helena: Ja, ist auf jeden Fall interessant, weil das klingt auf jeden Fall nach einem super schönen Data Science Thema oder was für mich auch interessant ist irgendwie, weil Daten gesammelt werden. Aber nicht jeder, der Daten sammelt, muss halt auch selber Data Science machen. Und ja, ich fand die Idee mit den Datenzwergen schon ganz witzig, als ich die vor dem Camp gesehen hatte auf Mastodon. Und finde ich cool, dass das geklappt hat, dass du das Interview geholt hast, dass du die interviewt hast und vielen Dank. Ja, ein paar Begriffe sind jetzt gefallen, die wir vielleicht noch mal aufgreifen wollen. So was wie API, das ist so eine Programmierschnittstelle, mit der andere Programmierer dann die Daten abfragen können von den Datenzwergen. Und so ähnlich ist auch MQTT, was hier gefallen ist, worüber auch Daten verteilt werden können. Das ist aber mehr so ein Nachrichtenaustauschverfahren, um Nachrichten zwischen verschiedenen Computern oder Programmen auszutauschen. Und in diesen Nachrichten sind dann eben dann die Messdaten drin.
Janine: Mir hat das Interview auch viel Spaß gemacht, wie man vermutlich auch gehört hat. Und ich fand das sehr schön, dass Foosel gesagt hat, ausversehen nachhaltig, weil andere auch damit arbeiten können. Weil die Dinge bereitstehen, die du ja auch gerade erklärt hast, noch mal, was das begrifflich ist.
Helena: Ja.
Janine: Und ich fand es auch ganz schön, also welcher Aspekt mir jetzt so im Nachgang noch mal auffällt, ist halt wirklich CO2-Sensoren in die Datenzwerge bauen und sie dann vielleicht zum Congress mitnehmen. Das klingt auf jeden Fall ganz gut. Wo der Herbst gerade immer mehr anzieht.
Helena: Ja, eine Sache, die ja auch immer interessant ist, ist ja auch diese Vergleichbarkeit der Daten, wenn man die Datenzwerge dann zu anderen Veranstaltungen mit hinnimmt. Dazu wollte ich dann noch anmerken, ja, ändert bitte nicht die Sensoren für die Daten, die ihr bereits nutzt, sondern fügt nur neue hinzu, einfach um die Vergleichbarkeit zwischen den verschiedenen Jahren zu verbessern. Und wenn man neue Sensoren haben möchte, vielleicht für ein paar Veranstaltungen mit den alten parallel laufen lassen, damit man in der Lage ist, die Unterschiede aufzufangen. Weil ja, unser Motto ist ja, kenne dein Messverfahren. Und wenn man einfach die Sensoren ändert, ohne darauf zu achten, dass die auch wirklich genau gleich messen oder vielleicht eine Abweichung haben, die man vielleicht wegrechnen könnte, wenn man später vergleichen möchte. Ja, das sollte man halt bedenken und messen am besten.
Janine: Ja, das erinnert mich auch sehr stark tatsächlich an, deswegen war ja das Datenzwergthema so interessant, an unsere Luftdatenfolge. Da haben wir ja auch über Sensoren und die Vergleichbarkeit geredet, vor allem auch mit den Bundesstationen vom Umweltbundesamt, weil die ja anders oder überhaupt geeicht sind im Vergleich zu denen, die jetzt so in den meisten gekauften kleinen Sensoren stecken.
Helena: Ja, beziehungsweise kalibriert.
Janine: Ja, kalibriert, das war das Wort, genau.
Helena: Eichen ist ein gesetzlicher Vorgang, während Kalibrieren ein messtechnischer Vorgang ist.
Janine: Ihr findet natürlich alle Links, die hier erwähnt wurden, zum Beispiel zur Beschreibung, wie dieses Projekt sich entwickelt hat und wie man das nachbauen kann zu Hause selbst. All das findet ihr dann auch in den Shownotes, die Links werde ich euch reinpacken, weil ja, zum selber probieren und tun und machen ist das ganz cool. Und dafür mag ich auch solche Projekte. Es ist ja nicht so, dass das jetzt völlig anders ist als beispielsweise das Airrohr von der Sensor Community, aber es ist halt ein Projekt, wo man selber nochmal wieder mitbasteln kann und überhaupt Projekte machen es einfach schön.
Helena: Ja, außerdem wenn man Gartenzwerge mag, kann man das ja auch nutzen, um sich selber eins in den eigenen Garten zu stellen.
Janine: Ja.
Helena: Müsste man vielleicht dann noch mit einer dauerhaften Stromversorgung versehen, weil das war jetzt eher mehr eventbasiert mit den Batterien.
Janine: Genau.
Helena: Für ein Gartenprojekt ist das dann, finde ich, eher uninteressant.
Janine: Ja, vielleicht gibt es ja bald das Solar-Upgrade.
Helena: Ja, das wäre sicherlich auch nice, wenn man dann die Steuerung hätte, das mit Solar und die Batterien dann laden und dass es dann genug hält. Aber ja, müsste man mal gucken, wie gut das funktioniert mit dem Stromverbrauch.
Janine: Ja, in dem Sinne nochmal schöne Grüße an euch beide, Romses und Foosel. War sehr gut. Wir treffen uns bestimmt mal wieder auf einem Event. Ja, das war jetzt dieses Interview, was etwas für sich steht, weil es ein bisschen anders war als das, was wir ursprünglich geplant hatten oder sich so entwickelt hat, weil es jetzt konkret eher auch um das Projekt dann ging in dem Gespräch. Aber jetzt kommen noch zwei Interviews, wo ich mit einzelnen Menschen über ihre Arbeit oder ihre Betätigung im Bereich Data Science geredet habe. Und das erste Interview ist mit Leo.
Interview mit Leo (00:23:47)
Janine: Ich habe jetzt an Helena nochmal eine Frage vorher.
Helena: Ja.
Janine: Also, und zwar fallen so zwei, drei Begriffe, wo ich denken könnte, dass es noch ganz gut ist, dass wir die vorher erklären. Kannst du vielleicht einmal kurz, bevor wir in das Interview mit Leo reinhören, sagen, was Knowledge Graphs sind?
Helena: Ja, also Knowledge Graphs beziehungsweise Wissensgraphen wäre das deutsche Wort, ist jetzt auch nicht unbedingt so viel deutlicher, weil das Wort Graph in diesem Fall eine bestimmte Bedeutung hat. Im Grunde genommen, man kann sich das so ähnlich vorstellen, also eine Variante wäre zum Beispiel so etwas wie ein Entscheidungsbaum, dass man irgendwo einen Punkt hat, wo man eine bestimmte Information hat, wie zum Beispiel ja ein Wald besteht aus Bäume und daneben ist dann ein anderer Kasten mit einer anderen Information, der dann etwas über Bäume sagt. Und wenn man ganz viele solcher Kästen aufmalt mit ganz vielen anderen Informationen und diese Informationen dann verbindet, das ist dann ein Knowledge Graph beziehungsweise ein Wissensgraph, also ein Wissensnetz.
Janine: Mich erinnert es an den einen R-Kurs, den ich mal belegt habe, wo das eine Beispiel war Passagiere der Titanic, die dann aufgeschlüsselt wurden, also die Anzahl und dann nach Klasse, also wie viele waren in der ersten Klasse, wie viele in der zweiten Klasse, so in die Richtung, meinst du das sozusagen, dass sich eine Gesamtmenge dann immer weiter unterteilt auch?
Helena: Ja, genau.
Janine: Okay. Und eine Frage habe ich noch, ich habe zwar auch eine grobe Vorstellung davon, aber White Box Classifier.
Helena: Ja, also wenn man das wörtlich auf deutsch übersetzen wäre, das weiße Kiste Classifier, das ist nicht ganz sinnvoll so zu übersetzen, eher transparente Classifier. Also wenn man irgendwie ja ein System hat, das durch maschinelles Lernen zum Beispiel irgendwie auf Fotos Katzen oder Hunde unterscheiden soll, dann spricht man eben von einem White Box Classifier, wenn das System, was das unterscheidet, wenn man die Gründe versteht, warum es das tut, wenn man versteht, was da passiert.
Janine: Mhm.
Helena: Und in vielen von den ganzen neuronalen Netzen, die man jetzt so hat, die jetzt auch viele der großen KI-Systeme, die jetzt gerade in aller Munde sind, ja, antreiben, weiß man das nicht, diese Information fehlt. Deswegen ist es eigentlich sehr interessant, dass man weiß, warum Entscheidungen getroffen werden oder warum eine bestimmte Klassifizierung vorgenommen wird. Weil wenn man irgendwelche KI-Systeme einsetzen will, wollen die Entscheidungen über Menschen zum Beispiel treffen, dann muss man ja auch die Entscheidung anfechten können. Und dazu muss man überhaupt erstmal wissen, auf was die basiert ist. Da können ja auch falsche Informationen drin sein.
Janine: Das stimmt. Das klingt auf jeden Fall schon mal sehr spannend, das jetzt so nochmal zu hören. Und ich hoffe, das verdeutlicht auch, wie cool das ist, was Leo gleich erzählt. Und deswegen hören wir jetzt mal in das Interview mit Leo rein.
(Kurzer Musikschnippsel)
Janine: Hallo Leo.
Leo: Hallo.
Janine: Wir möchten ja Menschen aus dem Bereich von Data Science interviewen und da so ein bisschen die Vielfalt abdecken. Was genau machst du denn?
Leo: Ich bin Doktorand*in der Informatik und ich beschäftige mich mit Erklärbarkeit von künstlicher Intelligenz und da bin ich in einem Nischenbereich, wo wir mit Knowledge Graphs arbeiten und mit Beschreibungslogik.
Janine: Ich habe mal in den Link reingeguckt, den du mir mitgeschickt hattest und bin da auf das Projekt gestoßen, in dem du mitarbeitest. Das scheint ja so eine Schnittstelle anzubieten zwischen Mensch, Maschine und Verständnis. Kann man das so sagen?
Leo: Ja, also das Projekt, in dem ich arbeite, ist ein größeres, das ist interdisziplinär angelegt. Da sind unter anderem Sprachwissenschaftler*innen beteiligt und Psycholog*innen und eben auch Leute aus der Informatik. Mein Teilbereich bezieht sich auf eine Form von Whitebox-Classifiern. Es gibt sogenannte Concept Learner, mit denen man auf der Basis von Knowledge Graphs Konzepte lernen kann und die benutzen, um weitere Individuen in dem Knowledge Graph zu klassifizieren. Der Vorteil daran ist, dass das ein Whitebox-Verfahren ist, dass man also aus dem Konzept unmittelbar entnehmen kann, was ist der Grund für die Klassifikation. Meine Aufgabe in dem Bereich ist dann, kontrafraktische Erklärungen zu generieren, also logische Regeln den Algorithmus anwenden zu lassen, um aus diesem Konzept eine Erklärung zu generieren, die die Frage beantwortet, was müsste ich tun, damit die Klassifikation anders ausfällt.
Janine: Okay, also es klingt auf jeden Fall sehr komplex, was du da machst. Wie bist du denn dazu gekommen, in diesem Bereich zu arbeiten?
Leo: Ich bin da relativ über Umwege reingekommen. Ich bin eigentlich Psycholog*in und habe meinen Bachelor und Master eben in Psychologie gemacht, mir dann überlegt, was will ich machen und habe mich auf Jobs im Bereich Data Science beworben, aber die Arbeitgeber*innen konnten sich alle nicht vorstellen, dass ein Psycholog*innen mit Data Science was am Hut hat. Tatsächlich ist das Psychologiestudium eine große Menge von Datenanalyse, wissenschaftliche Methoden und geht schon sehr in dem Bereich. An einigen Unis benutzt man beispielsweise auch R, um Analysen durchzuführen, also die Programmiersprache. Von daher sind Psycholog*innen teilweise auch bereits mit Programmierung vertraut und der Einstieg würde eigentlich Sinn machen. Also ich habe mich auf Stellen beworben, wo Leute gesucht wurden, die mit R arbeiten können oder Ähnliches, ja aber trotzdem nach einem Jahr erfolgloser Bewerbung festgestellt, dass der Arbeitsmarkt da nicht offen für ist. Also falls Arbeitsgeber*nnen zuhören, ihr könnt Psycholog*nnen einstellen, die können das.
Janine: Ja.
Leo: Am Ende bin ich dann ebenso mehr durch Zufall auf einer zunächst anderen, auch als Promotionsstelle gedachten Stelle an einer Fachhochschule gelandet. Da war es im Bereich Mensch-Technik-Interaktion und ging so um Smart Homes. Da durfte ich mir dann mein eigenes Thema suchen und habe da für mich die Ecke gefunden, wie kann man Erklärbarkeit von intelligenten Smart Home Systemen verbessern und wie kann man da den User mehr einbeziehen. Da habe ich zwei Jahre gearbeitet und das Projekt lief aus, da ja solche Forschungsprojekte immer begrenzt sind.
Janine: Ja.
Leo: Also habe ich mich nach einer neuen Stelle umgeschaut und bin dann da gelandet, wo ich jetzt bin.
Janine: Das klingt auf jeden Fall nach einem sehr, sehr spannenden Weg. Also auch eher quer eingestiegen in Data Science über, naja, ich sage mal, wie du es schon erklärt hast, auch verwandte Bereiche. Was hat dich daran am meisten interessiert? Warum bist du diesen Weg gegangen?
Leo: Das ist eine schwer zu beantwortende Frage. Also ich habe gemerkt im Studium, dass mir wissenschaftliches Arbeiten Spaß macht.
Janine: Mhm.
Leo: Ich hatte auch anfangs überlegt, eine Karriere in der Wissenschaft vielleicht anzustreben. Ein wesentlicher Grund, warum ich davon abgekommen bin, ist auch die Replikationskrise in der Psychologie.
Janine: Ja.
Leo: Das würde jetzt ein großes neues Thema aufmachen. Aber ja, ich habe dann im Grunde was gesucht, wo ich auch analytisch arbeiten kann. Und ja, da war Data Science naheliegend.
Janine: Ja, sehr schön. Dann danke ich dir dafür, dass du dir Zeit genommen hast, die Fragen zu beantworten. Und ich hoffe, das inspiriert vielleicht auch andere Menschen, die zuhören, sich mal umzugucken und zu schauen, was so mit ihrer Ausbildung oder ihrem Ausbildungsweg so funktionieren kann, wenn Data Science für sie interessant wäre. Vielen Dank.
Leo: Tschüss.
(Kurzer Musikschnippsel)
Helena: Ja, also ich muss sagen, nachdem ich oder während ich das gehört habe, das Interview, war ich auch sehr empört über die ganzen Firmen, die sie nicht eingestellt haben. Also, weil sie ja auch sagt, wenn man Psychologie studiert, macht man viel Statistik. Und einige von denen haben dann eben auch Spaß daran, damit zu programmieren. Von daher, dass irgendwie, und können es dann halt auch, das gar nicht erst auszuprobieren, kann ich nicht nachvollziehen. Gerade weil, in meiner Erfahrung, viele Data-Science-Teams eben interdisziplinäre Hintergründe haben. Das heißt, sehr viele verschiedene Naturwissenschaften kommen da zusammen. Und Informatiker oder Leute, die Data-Science studiert haben, sind tendenziell die Ausnahme. Letzteres auch, weil es diesen Studiengang noch nicht so lange gibt. Aber ja, das ist halt auch so ein Punkt.
Janine: Ja, ich denke auch, das ist etwas, was der Arbeitsmarkt definitiv überwinden sollte, zu starre Strukturen zu haben. Weil ich habe eigentlich das Gefühl so, es ist immer mehr erforderlich eigentlich, sich in unterschiedlichen Bereichen gleich gut auszukennen und Sachen zusammenbringen zu können. Weil Dinge nicht einfach nur rein technisch oder rein geisteswissenschaftlich sind, sondern da definitiv inzwischen, meine ich, eine deutlich größere Überlappung besteht, als noch vor einigen Jahrzehnten. Und das sollte der Arbeitsmarkt eigentlich endlich auch mal abbilden können.
Helena: Ja. Ja, eine Sache, wo Leo jetzt nicht so darauf eingegangen ist…
Janine: Weil das Thema zu groß ist, meinst du?
Helena: Weil das Thema zu groß ist, ist die Replikationskrise in der Psychologie. Und was damit gemeint ist, ist, dass es sehr viele Studien gibt, wenn man die wiederholt, die dann irgendwie zu anderen Ergebnissen kommen. Das heißt, es ist deutlich schwerer in der Psychologie aus einer Studie die Erkenntnisse zu verallgemeinern. Das kann zum Beispiel daran liegen, dass selbst wenn man versucht, eine Studie eins zu eins nachzubauen, dass man irgendwo eine Kleinigkeit dann doch ändert, weil man einfach ein anderes Teilnehmendenspektrum hat oder so. Und das kann schon der Grund sein, oder weil man die statistische Auswertung unsauber macht und dann immer nur die signifikanten Dinge hinterher berichtet in den Veröffentlichungen. Und eine Variante, gerade gegen das Letztere vorzugehen, ist, dass man ja vorher, bevor man die Studie macht, bereits veröffentlicht, dass man sie macht, einschließlich der Auswertung. Also wie man das auswertet. Die Daten muss man danach erst gewinnen, aber wie man das auswerten will, muss man vorher schon festlegen, damit man nicht während der Auswertung von irgendwie 100 möglichen Auswertvarianten die eine rauspickt, die dann ein scheinbar statistisch signifikantes Ergebnis liefert. Aber das liegt dann einfach nur an reinem Zufall. Aber weil es so viele Varianten gibt, das auszuwerten, mag es dazu führen, dass man sich genau das rauspickt. Und um das zu verhindern, gibt es eben dieses, dass man vorher bereits berichtet, wie man es auswertet.
Janine: Ja.
Helena: Das wird nicht nur in der Psychologie angewendet. Das wurde zum Beispiel auch am CERN, als das Higgs-Boson in der Physik die große Runde machte vor zehn Jahren, angewendet, dass man die Messung an dem Teilchenbeschleuniger halt durchgeführt hat. Aber das Verfahren, wie man das gemacht hat, stand vorher schon und man hat erst quasi am Tag der Pressekonferenz erst die Auswertung laufen lassen.
Janine: Ahja.
Helena: Man hat getestet, dass die Software und alles funktioniert mit Testdaten, aber die tatsächliche Auswertung hat man erst dann gemacht, damit man unabhängige Ergebnisse kriegt von Beeinflussung der Leute, die die Analysen machen.
Janine: Ja, so eine Art Vermeidung eines Bias, was das schönste Ergebnis wäre - so in etwa.
Helena: Ja, genau. Das hindert einen nicht daran, dass man hinterher nochmal die Daten hernehmen kann und andere interessante Dinge herausfinden kann. Aber da sollte man dann sagen, ja, das ist jetzt etwas, was wir dann in einer neuen Studie untersuchen und auch so auswerten wollen...
Janine: Ja.
Helena: ...auf diesen Faktor, um irgendwie zu gucken, in welche Richtung könnte man weiterforschen, ist das okay? Aber in manchen Feldern ist es halt schwierig, wenn man die Auswertung ja, hinterher macht, weil es zu viele Möglichkeiten gibt.
Janine: Ja, und also auch was Leo erzählt hat mit den Whitebox-Classifiern, das dient dann ja quasi eigentlich auch dazu, Sachen besser zu verstehen und genauer zu nachvollziehen zu können.
Helena: Ja, das stimmt.
Janine: Ja, das war dieses Interview auch wirklich sehr spannend und auch tatsächlich im Bereich KI, was du ja vorher schon erwähnt hattest, ehe wir in das Interview gegangen sind, als wir über die Begriffe geredet haben.
Interview mit Emma (00:37:10)
Janine: Ja, dann können wir jetzt gespannt sein auf das nächste Gespräch mit Emma.
(Kurzer Musikschnippsel)
Janine: Für das nächste Interview habe ich mich jetzt mit Emma getroffen. Hallo, Emma.
Emma: Hallo und vielen Dank für die Einladung.
Janine: Sehr gern. Schön, dass du dir die Zeit dafür nimmst. Genau, und ich fange einfach mal direkt mit unserer ersten Frage an. Was machst du als Data Scientist? Beziehungsweise würdest du dich selbst tatsächlich so bezeichnen?
Emma: Ja, das ist eine sehr gute Frage, weil die Antwort auf diese Frage hat sich über die letzten Jahre immer mal wieder verändert. Aktuell tue ich mir ein bisschen schwer. Ich sage immer, ich bin so eine Data Person. Und ich glaube, alle scheinen damit leben zu können. Um so ein bisschen zu erklären, warum das gerade so ist, würde ich so ein bisschen ausholen.
Janine: Ja, sehr gern.
Emma: Ich bin hier nicht aufgewachsen und habe im Erststudium Translation, also Übersetzung und Dolmetschen studiert und so bin ich nach Deutschland gekommen. Nach ein paar Jahren in diesem Leben, in Sprachgedöns, habe ich entschieden, doch noch mal in die Uni zu gehen, weil mir die Perspektiven da nicht so gut gefallen haben. Und ich war schon vorher als Jugendliche so ein bisschen nerdiger als meine Peer-Gruppe, war die Einzige im Translationsstudium, die irgendwie mit Linux gearbeitet hat und so ein Krams. Und so habe ich entschieden, irgendwie dachte ich mir so, ja, Computer und Sprachen passen ganz gut zusammen. Also studiere ich irgendwie Informatik, um in die Richtung Computer Linguistik, Natural Language Processing zu gehen, irgendwas zu tun. Und spannenderweise während des Informatikstudiums bin ich so ein bisschen da abgewogen und kam von diesem, okay, ja, um Natural Language Processing zu machen, muss man irgendwie so mit größeren Datenmengen umgehen. Das ist super spannend, ich mache alles, was mit größeren Datenmengen zu tun hat.
Janine: Das heißt, du hast dann angefangen, mit größeren Datenmengen zu arbeiten?
Emma: Genau, also ich habe so alle diese Sachen an der Uni mich interessiert und immer weiter vertieft und dann habe ich angefangen, in so einem ganz anderen Bereich als Sprache zu arbeiten, nämlich bei so einem Energieversorger. Und da habe ich angefangen, all diese angrenzenden Themen halt immer tiefer kennenzulernen, mich dafür zu interessieren und aber auch in so ein, okay, es ist schön, irgendwelche, wie sagt man, Spaßmodelle zu bauen, aber es ist dann auch irgendwie ganz wichtig, die in Production zu bringen, weil wenn ich irgendwas in einem Jupyter-Notebook baue, weil niemand das benutzen kann, ja, bringt das nicht so viel. Und dann bin ich meinem damaligen, sozusagen, Mentor in einen neuen Job gefolgt und da war auch so ein Data Science Team und war sehr, von unserem Aufgabenspektrum sehr breit. Also mussten wir relativ viel auch Softwareentwicklung machen, also das ganze Gedöns von Daten holen, Daten vorbereiten, ein bisschen irgendwelche Modelle in Production setzen und irgendwie die Ergebnisse erklären und so weiter.
Janine: Ja.
Emma: Und jetzt bin ich seit einem Jahr bei einem neuen Arbeitgeber und da habe ich angefangen als irgendwas zwischen Data Scientist und Data Engineer. Ich tat mir da an der Stelle ein bisschen schwer mit dem Begriff nur Data Scientist, weil ich in der Zeit das Gefühl hatte, wenn man sagt, okay, man ist nur Data Scientist, macht man nur die Modelle und den Rest drumherum nicht. Und mir war an der Stelle wirklich wichtig zu sagen, okay, ja, Modelle sind schön und wichtig, aber den Rest drumherum auch. Wie gesagt, so ein Single-Modell im Jupyter-Notebook bringt dann an der Stelle auch nicht mehr viel, wenn man nicht in der Lage ist, dann irgendwie Richtung, weiß nicht, Production oder was auch immer man für Ziel hat zu bringen. So war zumindest meine Erfahrung.
Janine: Das heißt, du hast gewissermaßen Interesse daran, den gesamten Prozess mitzumachen und mitzuerleben und mit daran zu arbeiten.
Emma: Ja, vor allem hatte ich so ein bisschen das Gefühl, dass das Ganze drumherum, also das Modellbauen und so, alle haben Lust darauf. Und alles, was noch passiert, wird manchmal so ein bisschen stiefmutterlich behandelt. Und ich bin manchmal der Meinung, okay, ein weniger krasser, verrückter Modell, der aber ein bisschen erklärbarer ist und der ein bisschen productionfähiger ist, ist wahrscheinlich, also finde ich, so wertvoller manchmal.
Janine: Ja.
Emma: Und jetzt seit einem halben Jahr hat sich alles ein bisschen verändert, weil in meinem Unternehmen kam ein großes Interesse auf, ja, was können wir mit großen Sprachmodellen machen? Und da kam ich so ein bisschen zufälligerweise in diese Gruppe an Leute, die das verantworten. Und seitdem sieht mein Arbeitsalltag total anders aus, als es war vor noch ein halbes Jahr.
Janine: Okay.
Emma: Genau, und jetzt ist meine Aufgabe, so ein bisschen zu gucken, okay, was haben wir für Use Cases? Wie können wir solche Modelle irgendwie sinnvoll nutzen? Und da aber auch diese Data Science, diese Brille zu setzen. Okay, wie kann ich dafür sorgen, dass ich, wenn mein Modell irgendwas sagt, dass ich irgendwie gucke, dass das, was es sagt, ist richtig. Also das ist die klassische Fähigkeit einer Prediction. Inwiefern weiß ich, dass diese Prediction irgendwie halbwegs stimmt.
Janine: Ja.
Emma: Das ist jetzt mit so einem großen Sprachmodell irgendwie ganz anders zu lösen. Aber finde ich genau die gleiche Fragestellung. Deswegen finde ich es sehr interessant. Und für mich dieses Zurückkommen auf natürliche Sprachen ist auch sehr, sehr spannend. Weil damals an der Uni hat alles noch so anders ausgesehen, als jetzt.
Janine: Das glaube ich.
Emma: Genau.
Janine: Das heißt, wenn du jetzt sagst, es hat sich so vor einem halben Jahr nochmal stark verändert mit diesem neuen Fokus, würdest du da auch sagen, dass jetzt so die neueren Entwicklungen, was Chat-GPT und auch Übersetzungsmodelle angeht, wie Whisper, was wir zum Beispiel tatsächlich auch für den Podcast nutzen, um unsere Transkripte zu machen,...
Emma: Mhm.
Janin: ...dass diese ganzen Fortschritte, die da jetzt passiert sind im letzten Jahr so circa, dass das tatsächlich auch Einfluss auf deinen Arbeitsbereich hatte?
Emma: Komplett. Also für mich ist es jetzt, also mein Alltag basiert tatsächlich darauf, große Sprachmodelle irgendwie zu gucken, wie sie nutzbar gemacht werden können. Und zwar nicht nur für diesen, okay, ich schreibe mir meine E-Mail.
Janine: Ja.
Emma: Also so auch ein bisschen im größeren Rahmen auch im Unternehmen. Und dadurch, dass es so einerseits eine, wie ich finde, schon relativ disruptive Entwicklung ist und zwar nicht inhaltlich, aber so dieses, es ändert die Art und Weise, wie wir mit Computer umgehen. Und das ist für Leute, die halt nicht sich schnell irgendwie Python nehmen können, um Daten zu analysieren oder so, schon ein großer Unterschied, finde ich.
Janine: Ja.
Emma: Also das ist jetzt mein Alltag. Und das alles mit so ein bisschen, diese auch kritische Sicht. Okay, was können wir Chat-GPT oder äquivalente Modelle fragen? Und was sollten wir lieber nicht tun? Und wie funktionieren diese Modelle für sich aus? Und weshalb sollte ich das vielleicht tun oder nicht tun? Das ist auch eine super spannende Frage. Aber da geht es aktuell auch manchmal auch ein bisschen in diese Organisationsfrage. Von wegen okay, ja, also mein Unternehmen wird verboten oder nicht verboten oder interne Lösungen oder irgendwie ganz viel Sensibilisierung auch Richtung ethische Bedenken und so weiter. Das ist ein bisschen aktuell in diese Richtung. Aber ich hoffe, ich komme mal wieder demnächst wieder ein bisschen näher in dieses rein Technische.
Janine: Ja, das klingt auf jeden Fall extrem spannend, was du erzählst. Und auch Sachen, mit denen wir uns tatsächlich auch gern schon mal im Podcast beschäftigen. So diese Frage, was passiert eigentlich, wenn wir das so nutzen? Und da gibt es ja auch schon ganz viele andere kluge Menschen, die sich da Gedanken drüber machen, auch was so Quellen angeht, wie vertrauenswürdig sind Fakten, die da durch solche Modelle generiert werden teilweise oder präsentiert werden. Ja, richtig spannend.
Emma: Ja, auf jeden Fall. Und ich glaube, da ist ziemlich viel Potenzial, aber auch ziemlich viele Gefahren. Und da muss man so ein bisschen wachsam bleiben. Also so dieses, das Modell ist cool. Also aus meiner Sicht sind diese Modelle so disruptiv, dass sie viele Sachen konsumierbar machen. Aber das, was dahintersteckt, muss da woanders gelöst werden durch andere Modelle, klassische Modelle oder sinnvolles Data-Engineering oder Anbindung an Quellen und so weiter. Und das ist alles viel komplizierter. Aber ja, das ist ein spannendes Thema auf jeden Fall. Aber da tue ich mir auch ein bisschen schwer zu sagen, ja, ich bin Data Scientist, weil aktuell bin ich das, glaube ich nicht ganz. Ich weiß nicht, was ich bin. Das wäre ein Dataproblem fast, glaube ich.
Janine: Ja, finde ich auch einen schönen Ausdruck, ehrlich gesagt, insgesamt dafür. Ja, du hast ja auch schon ein bisschen erzählt, das wäre sonst meine nächste Frage gewesen, wie du da hingekommen bist. Das ist ja tatsächlich auch eher so über Umwege. Ich habe so das Gefühl, das passiert vielen Menschen im Data-Science-Bereich, dass oft aus anderen Themen oder vielleicht auch fachverwandten Themen jemand rüber wechselt, so wie du jetzt. Das ist auch sehr spannend.
Emma: Auf jeden Fall.
Janine: Ich glaube, das ist gar nicht so selten, oder?
Emma: Ich denke auch. Also so in meinem Bekanntenkreis und so sind ganz viele. Also ich glaube, ich bin einer der wenigen, die tatsächlich Informatik studiert haben irgendwann. Zumindest in meinem Kreis. Irgendwie Physik oder ein lieber Kollege von mir ist Biologe oder Mathematik. Naturwissenschaftler sind ganz häufig mit dabei.
Janine: Ja.
Emma: Ich habe auch Bekannte, die auch über so sprachwissenschaftliche Sachen und dann auch Informatik studiert haben, aber auch im zweiten Anlauf sozusagen. Aber ja, das ist eine spannende Frage, warum genau da so häufig so ist, oder?
Janine: Ja, also ich glaube, tatsächlich hängt es teilweise damit zusammen, dass es die Studiengänge, die konkreten, dazu noch nicht so lange gibt. Ja, und eben, dass das vielleicht tatsächlich einfach so ein interdisziplinärer Bereich ist.
Emma: Das stimmt, ja. Auf jeden Fall.
Janine: Du hattest gerade noch gesagt, dass du hoffst, dann demnächst wieder mehr in den technischen Bereich zu kommen. Deswegen frage ich einfach nochmal, was interessiert dich an dem, was du machst, eigentlich so am meisten? Also, wo liegt so dein Hauptinteressengebiet im Umgang mit Daten zum Beispiel?
Emma: Aktuell ganz stark akut dieses, okay, wie kann ich das messbar machen? Wie kann ich eine Metrik entwickeln, um zu sagen, okay, das, was mir das Modell gesagt hat, ist Murks oder nicht und es verwertbar oder nicht oder es erfüllt nicht die Kriterien, die ich gesetzt habe, ist spannenderweise eine Frage, die mich auch vorher sehr viel, als ich mit zum Beispiel Zeitseriendaten gearbeitet habe, viel beschäftigt hat. Okay, wie kriege ich diese Observability sozusagen?
Janine: Ja.
Emma: Also so rein in das tägliche Doing, wie kann ich mein Modell monitoren und sehen, okay, wann ist es ein Data-Shift oder sowas? Und all diese Sachen haben mich schon lange begleitet. Die finde ich am spannendsten.
Janine: Also sozusagen eine Art Beweisführung?
Emma: Nicht unbedingt Beweisführung, aber dieses Erklärbarmachen machen, okay, wie gut ist tatsächlich die Prognose, die aus diesem Modell kommt oder wie gut ist die Antwort, die aus diesem Modell kommt und kann ich das dann auch über die Zeit nachvollziehen, rein weg von meinem Validation-Set oder so und auch in diesem täglichen Production-Betrieb sozusagen kann ich weiterhin irgendwie sicher sein, dass die Ergebnisse gut sind. Also wie teste ich mein Modell im breitesten Sinne?
Janine: Mhm.
Emma: Über den Punkt hinweg, wo ich das Modell gebaut habe. Das ist, glaube ich, das, was mich am meisten interessiert an verschiedenen Aufgaben. Und ich muss zugeben, ich habe so eine nerdige Ader, ich mag Python sehr gerne und Python zu verstehen in sich, so dieses Ökosystem und so, ist wahrscheinlich auch ein bisschen mehr in dieser Softwareentwicklungsseite als in der Data Science-Seite, aber immer mehr in das, wie die Sprache funktioniert, sich einzugraben, finde ich, das ist sehr sehr spannend. Und zu guter Letzt, diese ethischen Aspekte. Ich habe gesehen, ihr habt über das Buch Data Feminism geredet, in einer vorherigen Folge, und all diese Fragen, wie verbinde ich meine Technik mit meinem Verständnis von Gesellschaft und so, das ist auch etwas, was mich sehr beschäftigt, auch jetzt mit der Arbeit mit Large-Angle-Models. Ja, genau.
Janine: Ja, sehr schön. Dann vielen Dank, Emma, dass du dir die Zeit genommen hast und so kluge Sachen, glaube ich, auch gesagt hast. Es hat mir sehr viel Spaß gemacht, mit dir zu reden.
Emma: Danke, mir auch.
(Kurzer Musikschnippsel)
Helena: Ja, also bei diesem Interview, als es so anfing, hatte ich schon irgendwie gedacht, oh, sie hat vorher mal was mit Sprachen gemacht und dann macht sie was mit Daten. Und wir haben ja gerade den ganzen Chat-GPT-Hype. Bestimmt läuft es am Ende wieder darauf hinaus. Und so kam es dann auch. Das fand ich irgendwie doch sehr schön, dass dieser Weg am Ende für sie da landete, dass sie dann die beiden Sachen, die sie interessant findet, vereinen kann.
Janine: Ja, das stimmt.
Helena: Ja, was sie auch sagt, so mit Data-Person statt Data-Scientist. Also irgendwie gibt es mehrere Begriffe, sowas wie Data-Engineer und so. Ja, so richtig einheitlich ist es nicht, wie man das benutzt. Data-Engineer wird manchmal für die Leute benutzt, die dann so für die Modelle die Automatisierung machen. Aber für mich ist jetzt so Data-Scientist eigentlich der Oberbegriff für alles das. Und manchmal wird es halt noch kleiner zerteilt, sowas wie Data-Analyst, wenn man dann das macht, was sie gesagt hatte, mit man analysiert Daten und baut Modelle in einem Jupyter-Notebook auf und der Data-Engineer braucht daraus dann eine Software, die auf einem Server laufen kann und die ganze Zeit Auswertung macht, ohne dass ein Mensch eingreifen muss.
Janine: Ja.
Helena: Ja, ich weiß nicht, ob man das braucht. Jetzt gibt es ja auch noch so tolle neue Begriffe wie Prompt-Engineer. Also die, wenn man jetzt bei Chat-GPT irgendwie einen Text eingibt, die dann zum einen sagen, welchen Text man da eingeben soll, aber auch das Drumherum-Formulieren, dass man irgendwie sagen kann, ja, so Kontextinformationen möchte ich vorher schon mitgeben an das System. Das gehört dann eben zu diesem Prompt-Engineering. Das ist so der neueste Hype-Job, den es so gibt. Ja, im Grunde genommen wird das, was Emma macht, auch im Prompt-Engineering sein einfach, weil wenn man diese großen Sprachmodelle, wie man sowas wie Chat-GPT auch nennt, ja, irgendwie nutzbar machen will für verschiedene Anwender, dann ist eben das, was man da an Kontexten und so mitliefert, ein nennenswerter Teil vom Prompt-Engineer, von der Beschreibung des Jobs.
Janine: Ja, was ja auch mitschwang und auch sehr interessant war, ist ja eben auch diese Ebene, inwiefern es ist vertretbar, mit diesen Modellen zu arbeiten und in welcher Hinsicht können sie überhaupt genutzt werden und wann vielleicht auch einfach nicht. Das ist ja auch etwas, womit wir uns einfach auseinandersetzen müssen, weil die Modelle sind ja jetzt nun mal da und sie gehen nicht wieder weg.
Helena: Nee, wahrscheinlich nicht.
Janine: Und du hattest das ja vorhin auch schon einmal erwähnt, dass die meisten Teams so rund um Data Science, die da zusammenarbeiten, so super interdisziplinär sind. Das ist ja auch etwas, was Emma jetzt noch mal bestätigt hat quasi...
Helena: Ja.
Janine: ...dass das einfach aus vielen unterschiedlichen Richtungen kommt und da eben gar nicht so der Data Scientist als der Ausbildungsabschluss sozusagen dahinter steckt bei den meisten.
Helena: Ja, ich meine, ich bin ja selber ein Beispiel davon.
Janine: Ja.
Helena: Ich habe ja auch nicht Informatik studiert, sondern Physik. Ich habe dann in meinem Master halt Vorlesungen besucht zum Thema maschinelles Lernen und also im Prinzip war das mein Nebenfach. Aber ich komme nicht aus der Informatik selbst. Ja, und das, was wir im Studium gelernt hatten, das ist nicht annähernd, das deckt nicht annähernd das ab, was man heutzutage macht. Also, das ist schon, da geht es mir genauso wie Emma. Wie man jetzt mit neuronalen Netzen arbeitet, ist völlig anders, als wir das damals gelernt haben.
Janine: Und die Entwicklung ist ja auch super schnell passiert. Also, ich meine, im Wesentlichen kann man sagen, dass die letzten zwölf Monate ist das noch mal richtig explodiert, das Thema. Und hat ordentlich an Fahrt aufgenommen, was wahrscheinlich auch letztes Jahr, Anfang des Jahres, noch niemand so gedacht hat, dass das jetzt so auf Schlag auf Schlag kommt. Also, vielleicht schon, aber…
Helena: Ja, erst kamen die ganzen Bildgenerierungstools, darüber haben wir ja letztes Jahr auch eine Folge gemacht, und dann kam halt Chat-GPT. Ja. Im Gegensatz zu den Bildgenerierungstools hilft Chat-GPT jetzt schon viel mehr Leuten in ihrem Arbeitsalltag. Also, ich denke, bei all den Hypes ist das eine Technologie, die gehypt ist, die auch irgendwie bleibt.
Janine: Ja, definitiv. Ich weiß auch noch, wir haben in einer Jahresrückblicksfolge über, hattest du Sachen zu GPT-3 gesagt...
Helena: Genau. Das war halt damals noch nicht in der Chatvariante. Also, die zugrunde liegende Technologie hatten wir schon erwähnt, aber das, was es wirklich benutzbar gemacht hatte, war dann tatsächlich dieser engeenierte Prompt, dass man das quasi über den Chat einfach verwenden kann. Das war, ja, ich glaube, der letzte Schritt, der gefehlt hatte.
Janine: Ja. Also, ich finde es jedenfalls sehr spannend, dass wir jetzt auch ausgerechnet, also es ist ja reiner Zufall, dass wir jetzt zwei Menschen quasi erwischt haben, die im Data Science-Bereich arbeiten und sich eben beide mit großen KI-Modellen beschäftigen.
Helena: Ja, aber mit völlig verschiedenen Modellen.
Janine: Ja, sehr schön. Ja, ich würde sagen, dann können wir so eine Art Fazit machen, wa?
Fazit (00:54:43)
Helena: Ja, ich fand es sehr schön, auch nochmal was zu den Datenzwergen zu hören, aber eben auch zu hören, wie jetzt die verschiedenen KI-Modelle ja in der Praxis angewendet werden oder werden können. Und einfach mal zu hören, wie es anderen Data Scientists ging, das hat mich sehr gefreut. Danke dafür.
Janine: Ja, sehr gern. Ich fand es sehr schön, dass du dieses Experiment mal mitgemacht hast, nachdem ich das vorgeschlagen habe, dass wir mal die Folge so herum aufnehmen. Und ich weiß jetzt ein paar Dinge, die ich beim nächsten Mal vielleicht besser machen kann, aber ich fand es halt wirklich spannend, mich mit den verschiedenen Menschen zu unterhalten und diese Einblicke und Eindrücke zu bekommen. Und ja, wenn ihr das auch spannend fandet und das Format vielleicht gerne so nochmal hören wollen würdet, gebt uns gerne Feedback dazu, dann machen wir das mal wieder. Weil ja, ich finde, da entstehen wirklich interessante Einblicke in das, was gerade aktuell im Data Science-Bereich wirklich Thema ist. Und ich finde es auch schön, dass auch mit drin war, dass Data Science nicht nur diese großen Modelle sind, mit denen wir uns gerade alle irgendwie im Internet mal hier und da beschäftigen, sondern eben auch, dass es immer noch sein kann, Spaß mit Daten zu haben und selber Projekte zu machen und das auch auf Ebenen, wo nicht unbedingt ein ganzes Studium hinterstecken muss, dass man da spaßige Sachen machen kann und sich dafür interessieren kann, wie die Welt um einen herum so aussieht. Also das ist so, was ich aus dieser Folge vor allem mitnehme.
Nächste Folge: ggplot im November (00:56:21)
Helena: Ja, das war unsere Oktoberfolge und weiter geht es dann im November mit der Novemberfolge. Und da reden wir über ggplot. ggplot ist quasi eine Ergänzung unserer Datenvisualisierungsreihe und das ist ein Tool, das man insbesondere in R verwendet. Und wir wollen darüber reden, was ist so die Grundidee hinter ggplot, was heißt Grammar of Graphics, wofür das GG steht für Grammatik der Grafiken, was damit gemeint ist, wollen wir ansprechen und eben auch, warum es anders funktioniert als andere Plot Tools, warum es so gut ist, wie es ist, aber auch, welche Schwächen es hat.
Call to Action (00:57:02)
Janine: Genau und wenn ihr diese Folge und alle weiteren nicht verpassen möchtet und uns weiterhören möchtet, folgt uns doch auf Mastodon unter @datenleben@podcasts.social oder besucht unsere Webseite www.datenleben.de. Hinterlasst uns gerne Feedback, darüber freuen wir uns immer sehr. Ihr könnt Kommentare unter unsere Folgen schreiben und ja, ihr könnt uns außerdem auch als Data Scientist buchen für Analysen oder Projekte. Und ja, falls ihr Fragen habt oder Themen, die euch interessieren, dann schreibt uns.
Helena: Ja, dann bleiben wir nur noch für eure Aufmerksamkeit zu danken und bis zum nächsten Mal. Ciao.
Janine: Tschüss.