dl040: wie nutzen wir whisper für transkripte?

dl040: wie nutzen wir whisper für transkripte?

Machine Learning und Neuronale Netze sind mittel, um uns potentiell Arbeit abzunehmen. Whisper ist zum Beispiel ein Machine Learning Modell, das Sprache in Audiodateien erkennen und in Text verarbeiten kann. Damit die Inhalte unserer Folgen für viele Menschen gut zugänglich sind, haben wir seit Anfang 2023 komplette Transkripte in unseren Shownotes, die wir mit Hilfe von Whisper erstellen. Zeit mal darüber zu reden, wie wir das finden, was für Erfahrungen wir gemacht haben und -- besonders spannend -- ob Whisper halten kann, was wir uns davon versprochen haben.

Links und Quellen

Schlagworte zur Folge

Machine Learning, Neuronale Netze, Künstliche Intelligenz, Whisper, Transkript, Erfahrungsbericht

Intro (00:00:00)

Thema des Podcasts (00:00:18)

Helena: Willkommen zur vierzigsten Folge beim datenleben-Podcast, dem Podcast über Data Science. Wir sind Helena ...

Janine: ... und Janine ...

Helena: ... und möchten euch die Welt der Daten näher bringen. Was für Daten umgeben uns? Was können wir mit ihnen machen und was aus ihnen lernen? Wer schon immer mehr darüber wissen wollte, ist hier richtig, denn diesen Fragen gehen wir nach.

Thema der Folge (00:00:37)

Janine: Und dieses Mal reden wir mal wieder nicht über künstliche Intelligenz, sondern nur über Machine Learning und neuronale Netze. Allerdings über eine ganz bestimmte Anwendung. Es geht nämlich um Whisper. Das ist eine Anwendung von OpenAI, die mit einem Machine Learning Modell Sprache in Text umwandelt und dann eben als Text auch ausgibt. Diese Anwendung nutzen wir inzwischen selbst und zwar seit unserer ersten Folge in diesem Jahr, um unsere Folgen komplett zu transkribieren und dieses Transkript dann auch in den Shownotes stehen zu haben und es da anbieten zu können, sodass alles, was wir sagen, wirklich auch niedergeschrieben ist. Und wir wollen in dieser Folge mal unsere Erfahrungen mit Whisper angucken, die wir bisher so gesammelt haben, dabei ein paar Vergleiche anstellen vielleicht und ein kleines erstes Fazit ziehen für uns. Dabei gucken wir nach folgenden Fragen: Wie gut funktioniert das für uns wirklich? Wie viel Zeit kostet das im Vergleich zum vorherigen Vorgehen? Also zu relativ ausführlichen Shownotes mit Stichpunkten, aber nicht im kompletten Text. Und wie sieht der Vergleich zwischen Mensch und Maschine hier aus? Dafür haben wir ein kleines Experiment gemacht, wo Menschen sich beteiligt haben. Ja, und was gibt es so im Umgang mit Whisper zu beachten, ist dann hoffentlich das, was rechts und links dabei rausfällt als mehr oder weniger sinnvolle Info.

Warum finden wir das Thema interessant? (00:02:11)

Helena: Warum finden wir das Thema interessant? Also uns geht es auch um den Abbau von Barrieren, also dass unser Text nicht nur als Podcast vorliegt, sondern wenn es möglich ist eben, dass es auch den Text zum Nachlesen gibt. Da hatten wir schon länger überlegt, wie man das umsetzen könnte und ja, Ende letzten Jahres dann festgestellt, dass sich Whisper dafür eignet, dass auch die deutsche Sprache gut kann und recht zuverlässig ist. Wie zuverlässig, darum geht es heute. Und dass es eben nicht darauf basiert, dass man die Daten die ganze Zeit zum Beispiel an Google schickt, und die das für einen machen, sondern man das selber machen kann. Außerdem ist Whisper auch für uns ganz konkret als Data Science Thema interessant, weil es im Gegensatz zur Bildgenerierung, zu der wir auch eine Folge gemacht haben, jetzt schon unser Tagesgeschäft geworden ist, aber eben auch auf neuronalen Netzen basiert.

Einspieler: Überall Künstliche Intelligenz – Was machen wir daraus? (00:03:06)

Janine: Ich komme nach Hause, scrolle durch das Internet. Alle reden schon wieder über künstliche Intelligenz. Schlagzeilen auf allen möglichen Nachrichten oder Newsseiten. Künstliche Intelligenz. Chance oder Jobkiller. Eine neue KI-Ampel regelt den Verkehr an Kreuzung in Hamm. Würde künstliche Intelligenz die Welt besser regieren? Das sagt die KI dazu. Stability-AI-Gründer: In fünf Jahren gibt es keine Programmierer mehr. Mordversuche in der Queen: KI-Chatbot soll Attentatspläne abgesegnet haben. Meine Gedanken schweifen ab, während ich durch diesen Newsfeeds scrolle. Wir reden bereits völlig selbstverständlich von KI. Dabei sind es bisher nur gut trainierte Modelle. Intelligenz impliziert Bewusstsein. Ein Bewusstsein, das mehr ist als ein Modell, das aufgrund zahlreicher, zur Verfügung stehender Daten so tun kann, als ob es ein Bewusstsein hätte. Aber mehr ist es doch noch nicht. Ein Teil des Problems ist vermutlich, dass wir nicht erkennen werden als Menschen, wann es nicht mehr nur ein gut simuliertes Bewusstsein ist, wenn es zum vermeintlich echten Bewusstsein wird. Vermutlich werden wir keinen wirklichen funktionierenden Turing-Test haben, keine Blade Runner, die den Leuten anhand ihrer Emotionen ablesen können, wer oder was sie sind. Wir wollen digital das menschliche Gehirn nachbauen und nennen es künstliche Intelligenz, weil wir an eine Utopie glauben, weil Dinge dadurch vielleicht wirklich besser werden können. Und daneben gibt es diese anderen Menschen, die die Umrisse einer Dystopie, einer Katastrophe zeichnen. Wer hat heutzutage nicht den Terminator gesehen? Skynet? Die Menschen entwickeln Technologien für ein Morgen, als ob es selbiges nicht gäbe. Sie machen sich wenig Gedanken, sie sind wie Kinder, die im Sand spielen und Burgen bauen und Welten erschaffen, und sie genießen diesen kreativen Moment. Und im Hintergrund rückt schon die Flut an, die für all das steht, was sie vorher nicht bedacht haben. Die Flut wird kommen, aber keiner weiß, wie hoch. Ich fange an, mich zu fragen, wie klug wir Menschen wohl sein werden. Fast alle Technologien, die wir im Laufe der Jahrtausende entwickelt haben, haben immer zwei Seiten. Sie können konstruktiv sein, sie können destruktiv sein. Es liegt an uns, sie richtig einzusetzen, die richtigen Schlüsse auf den aktuellen Stand des Wissens zu ziehen. Aber wie kann das beim Thema Künstliche Intelligenz wirklich funktionieren, wo wir doch davon ausgehen können, dass eines Tages die KI selbst Schlüsse zieht und Entscheidungen trifft? Sind wir gerade Ikarus auf dem Weg an der Sonne vorbei mit Flügeln aus Wachs, oder haben wir alles fest in der Hand? Über diesen Gedanken schlafe ich ein und beginne zu träumen. Die Bilder meines Traumes werden von MidJourney erstellt. Bizarre Kulissen einer verzerrten Realität, die auf Hochglanz gezogen wurde. Neonlichter. Die Dialoge der vielen Figuren... haben sie manchmal drei Arme?... hat JettGPT geschrieben. Sie reden und reden und alles klingt plausibel, aber nichts hat Hand und Fuß. Und eine dritte KI ohne Namen hat anhand meiner Social Media Accounts meine Bedürfnisse analysiert. Die Traumwelt wird immer weiter überarbeitet, verfeinert, bis sie zu einem glatten, widerspruchsfreien Spiegel meiner Wünsche wird. Ich werde nicht mehr aufwachen. Ich bleibe hier im idealen Traum in meiner neuen idealen Welt. Nur noch fünf Minuten murmel ich dem Wecker entgegen, als er am Morgen klingelt. Der Traum war ja schreckend schön. In welcher Welt werden wir wohl eines Tages wach werden, wenn wir erkennen, was wir geschaffen haben?

Wie funktioniert Whisper? (00:07:23)

Helena: Ja, wie funktioniert Whisper? Whisper ist ein neuronales Netz, das zur Spracherkennung genutzt werden kann. Dabei kann es auch mehrere weitere Funktionen erfüllen. Also es kann Sprache erkennen und in Text umwandeln. Es kann gesprochene Texte übersetzen, aber das nur nach Englisch. Es kann dann in den Text auch noch Zeitstempel einfügen, also zu welchem Zeitpunkt in dieser Audiodatei wurde das gesagt. Und es kann erkennen, welche Sprache verwendet wurde, also ob Englisch, Deutsch oder was anderes. Und es kann erkennen, ob überhaupt gesprochen wurde oder ob es vielleicht Musik ist oder was anderes. Und wenn man eine längere Audiodatei hat, wie zum Beispiel dieser Podcast, und das transkribiert werden soll, dann wird diese Datei zuerst in 30 Sekunden lange Snippets aufgespalten und das Modell arbeitet dann nur auf diesen 30 Sekunden. Um trotzdem Kontextinformation zu haben, wird der transkribierte Text vom Snippet vorher mit übergeben. Dabei kann das Modell dynamisch anpassen, wo die 30 Sekunden anfangen. Also es wird nicht am Anfang alles in 30 Sekunden Snippets aufgeteilt, sondern es wird dann durchaus auch mal ein paar Sekunden verschoben. Ja, im ersten Schritt wird aus einem Snippet dann ein sogenanntes Spektrogramm berechnet. Das ist eine mathematische Methode, um aus einem Audiosignal für jeden Zeitpunkt die Frequenz zu berechnen. Und ein Spektrogramm ist dabei auch eine zweidimensionale Darstellungsform. Also es ist auch ein Graphentyp, der dann, ja, für bestimmte Zeitpunkte mehrere Frequenzen gleichzeitig darstellt und die dann werden in der Regel als Farben dargestellt. Aber es wird nicht nur die Frequenz in Hertz berechnet, sondern schon umgewandelt auf eine Tonwertskala, der sogenannten MEL-Skala, die dann ja besser darstellt, welche Töne wie gut für Menschen unterscheidbar sind. Das reduziert eben dann auch die Anzahl an Ton- oder Frequenzdaten, die man braucht. Und für jeden Zeitpunkt gibt es dann 80 Frequenzwerte, die berechnet werden. Und jeder dieser Zeitpunkte besteht aus 25 Millisekunden, wobei immer zwei hintereinander liegende 25 Millisekunden Zeitblöcke 10 Millisekunden wiederum Überlapp haben. Ich finde diese 25 Millisekunden Wahl durchaus interessant, weil wir als Menschen ab 30 Millisekunden Zeitunterschied zwei akustische Ereignisse als unterschiedliche Ereignisse wahrnehmen können. So ein klassisches Experiment dafür ist, wenn man jetzt zwei Kugeln fallen lässt irgendwie gleichzeitig und dann immer den Abstand um ein paar Millisekunden erhöht, in denen die fallen und man sich das anhört, dann ist bei 30 Millisekunden ungefähr der Punkt, wo man hört, ja es sind wirklich zwei Kugeln und vorher kann man die nicht unterscheiden. Und diese 25 Millisekunden liegen eben darunter und durch den Überlapp kann man dann schon annehmen, ja das sind dann Snippets, die der Mensch auch wirklich ungefähr auf der Zeitskala hören und wahrnehmen kann. Ja, das sind dann aber immer noch sehr viele Daten und um das nochmal weiter zu reduzieren, wird, bevor dann das neuronale Netz anfängt, nochmal ein bisschen Signalprozessierung gemacht. Also es wird gefaltet, um die Anzahl der Punkte zu reduzieren. Dabei ist eine Faltung auch ein bestimmtes mathematisches Verfahren, wo dann einfach weniger Punkte rauskommen, aber es immer ungefähr gleich ist. So, dann kommt das neuronale Netz und das neuronale Netz besteht aus mehreren verschiedenen Stufen. Die erste Stufe ist dabei der Transformer Encoder und dieser Transformer Encoder kann auch aus mehreren Schichten bestehen und die haben auch für verschiedene Modelle verschiedene Anzahlen an Schichten benutzt und das Signal, was hier rauskommen soll, stellt quasi eine abstrakte Darstellung der Wörter dar, die Menschen sagen oder sprechen können.

Janine: Was genau meinst du mit abstrakt?

Helena: Naja, das ist halt keine Darstellung, die irgendwie menschlich verständlich ist, sondern es ist eine, die nur für dieses neuronale Netz einen Sinn hat. Man hat einfach eine Matrix aus ganz vielen Zahlen.

Janine: Wenn es noch nicht das exakte Wort ist, ist es dann vielleicht sowas wie der Klang oder die Laute, die erstmal grob erkannt werden, ehe das dann in Silben übersetzt wird?

Helena: Ja, genau.

Janine: Ah, Okay.

Helena: Das wird später, wenn es ums Training geht, auch nochmal relevant, warum diese Unterscheidung sinnvoll ist. Dann kommt das Ergebnis davon in den Decoder. Der Decoder ist dann der Teil, der darauf trainiert ist, tatsächlich aus dem, was aus diesem Encoder rausfällt, tatsächlich Wörter als geschriebene Sprache, ja, ausspuckt, also wo das dann rauskommt. Das heißt, für jedes Ergebnis vom Decoder ist dann immer ein Wort und dann immer ein Wort nacheinander und dann wird der ein Zeitschritt weiter ausgeführt und gibt dann das nächste Wort an. Dieser Decoder, der dann tatsächlich Wörter schreibt, der bekommt dann auch noch, ja, die Position mit eingegeben, aber auch zum Beispiel den Satz, der vorher herausgekommen ist als Input. Und in diesem Schritt kann man dann eben auch noch diese anderen Funktionen machen, wie die eigentliche Sprache, die gesprochen ist, erkennen und übersetzen und so weiter. Hier werden auch eben die Timestamps dann reingegeben. Whisper wurde eben auf verschiedene Varianten trainiert, mit verschieden großen Modellen. Also die Größe des Modells hängt dann davon ab, wie viele Ebenen vom Encoder man hat und wie viele Ebenen vom Decoder man hat. Und mehr Ebenen heißt dann tendenziell, dass das Modell auch bessere Ergebnisse liefert, aber dass es eben auch größer ist. Also dass es selber größer ist und komplizierter zu speichern ist und auch länger braucht, um ein Ergebnis zu liefern. Die kleineren Modelle haben dabei eben den Vorteil, dass sie Echtzeit-Transkripte ermöglichen. Da kann man zum Beispiel an Sprachsteuerung denken. Wenn man jetzt zu Hause irgendwie sprachgesteuert Dinge steuern möchte, aber nicht will, dass die Daten an Google, Apple oder Amazon gehen, könnte man jetzt auf irgendeinem kleinen Computer eben Whisper laufen lassen. Und eben mit einem kleineren Modell, dass es auch auf wenig stromverbrauchender Hardware immer noch sinnvolle Ergebnisse liefert. Das wird sicherlich irgendwann auch kommen. Ich habe jetzt noch nichts gesehen, was das gut genug macht, aber ich denke, das wird eine Anwendung von Whisper sein, weil vorher war das eben auch nicht wirklich möglich. Gut, aber jetzt hat man mehrere Modelle, die unterschiedlich gut sind oder gut sein sollen, weil sie unterschiedlich intensiv trainiert wurden.

Wie funktioniert das Training für Whisper? (00:14:44)

Helena: Dann ist die Frage, wie macht man denn überhaupt das Training? Das ist nämlich auch ein sehr wichtiger Punkt bei Whisper. Also generell gibt es verschiedene Trainingsmethoden. Das eine ist das sogenannte supervised learning, ein Trainingsverfahren, bei dem man quasi das Audio hat und aber auch ein komplettes Transkript hat, wo man auch die Qualität geprüft hat. Das heißt, das Transkript ist sehr gut, das Audio ist sehr gut und man hat alle Infos, die man am Ende haben möchte, auch da. Und das Problem hier ist, dass es für dieses Level an Trainingsdaten nur einige tausend Stunden an Datenmaterial gibt, wo man wirklich die Mühe reingesteckt hat, die Transkripte auch entsprechend zu überprüfen. Demgegenüber steht dann das sogenannte unsupervised learning, bei dem zum Beispiel über Clustering, also Clustererkennung, Ähnlichkeiten in verschiedenen Texten erkannt werden können. Und diese Ähnlichkeiten können dann durchaus, wenn verschiedene Leute ähnliche Textstellen oder ähnliche Wörter benutzen, auch erkennen, dass das die gleichen Wörter sein sollen. Aber die Schwäche ist hier, dass der Decoder nicht so richtig weiß, welches Wort er dann aufschreiben soll. Das ist nämlich genau das, was du gerade angesprochen hattest, dass nämlich der Encoder an dieser Stelle schon ziemlich gut trainiert sein kann, dass er erkennt, ja, die Leute benutzen das gleiche Wort, einfach durch unsupervised learning, durch Vergleiche, aber der nicht weiß, wie man das schreibt. Also im Prinzip kann man sagen, ja, das ist dann vielleicht ein Kind, das schon sprechen gelernt hat, aber noch nicht in der Schule war, um auch schreiben zu lernen. Das ist nochmal eine ganz eigene Fähigkeit. Whisper hat dann etwas gemacht, was eben auch bei der Bildgenerierung, wie StableDiffusion gemacht wurde, und das ist das sogenannte Weak Supervision. Das heißt, man hat nicht irgendwie Texte, die man alle manuell überprüft hat, genommen, sondern man hat auch ein bisschen darauf vertraut, dass man Sachen übers Internet finden kann, Texte und Audiodateien, wo ein Transkript vorliegen soll, das man eben nicht überprüft hat, aber mit denen man dann weitergearbeitet hat. Bei der Bildgenerierung war das dann so, dass Leute dann irgendwie Kommentare, Texte unter die Bilder geschrieben hat oder manchmal auch Bildbeschreibungen da waren. Da hat man nur durchaus die Qualitätskontrolle auch automatisiert durchgeführt, dass Sachen, die nicht zusammenpassen, vielleicht noch rausgefiltert werden, aber dass man eben so die Menge an Trainingsdaten deutlich erhöht hat im Vergleich zu, wenn man das alles aufwendigst überprüfen würde. Und im Falle von Whisper heißt das dann, dass man auf 700.000 Stunden Audio gekommen ist, die man jetzt verwenden konnte für das Weak Supervised Training. Also es ist dann im Grunde ein Supervised Training, aber weil man von den Texten, gegen die man trainiert, nicht von allen genau weiß, wie gut die sind, ist es quasi nur eine schwache Überprüfung oder schwaches... Ja, fällt mir jetzt das richtige Wort nicht ein. Ich meine, aber der Vorteil hiervon ist, zum Beispiel bei der Bildgenerierung, dass man natürlich dann auch für Beschreibungen von Bildern deutlich mehr verschiedene Menschen hat, die beschreiben, was man sieht und dann auch mehrere Arten etwas zu beschreiben hat, als wenn man nur Menschen unter Texte nimmt, die sehr ausführlich sind zum Beispiel, weil man dann ja auch wenige ausführliche hat, die trotzdem eindeutige Sachen sagen. Inwiefern das jetzt bei Transkripten eine Rolle spielt, weiß ich nicht. Was aber noch so ein Punkt bei Weak Supervision ist, ist, dass man denkt, ja irgendwo ist dann halt die Grenze, weil die durchschnittliche Qualität von Transkripten, die man im Internet findet, hat nur ein bestimmtes Level und besser könnte es dann nicht mehr werden, wenn man nicht deutlich mehr richtig gut kontrollierte Texte hat. Das ist so eine Sorge. Das hängt unter anderem auch damit zusammen, wenn jetzt alle Leute Whisper benutzen, um Transkripte zu benutzen, dann kann es ja sein, dass die nächste Vision von Whisper vielleicht zehn Millionen Stunden findet, aber davon sind neun Millionen Stunden mit Whisper erzeugt. Da kann es halt nicht mehr besser werden.

Janine: Das ist ja auch ein Problem, was schon bei der Bildgenerierung besprochen wurde, dass irgendwann die Trainingsdaten vielleicht selbst schon aus generierten Bildern bestehen.

Helena: Ja, und ja, von den 700.000 Stunden, die jetzt im Training verwendet wurden, waren 120.000 andere Sprachen als Englisch. Etwa 125.000 waren andere Sprachen Audio, aber der Text auf Englisch übersetzt. Deswegen kann es eben auch Dinge auf Englisch übersetzen, aber nicht auf andere Sprachen. Aber 120 Stunden Audio auf anderen Sprachen, wie viel jetzt Deutsch davon waren, weiß ich nicht, aber schon ein paar Zehntausend. Aber das ist dann ja immer noch nicht so unendlich viel im Vergleich zu Englisch. Das heißt, wahrscheinlich ist es deutlich besser auf Englisch. Den Vergleich haben wir jetzt nicht gemacht. Gut, wenn man jetzt Whisper benutzen möchte, dann ist das Ganze ein Python-Script. Zu Python haben wir ja auch schon eine Folge gemacht. Das ist eine der Standard-Programmiersprachen im Machine Learning. Und dieses Python-Script kann dann eben auf dem Computer, auf einem normalen Prozessor rechnen. Aber man kann auch Grafikkarten verwenden. Wie wir das jetzt für unseren Podcast anwenden, ist, dass das Skript einfach auf dem Server läuft, wo auch der Podcast ausgespielt wird. Und da wird dann einfach nur die CPU zum Rechnen benutzt. Das dauert dann mehrere Stunden für eine Podcast-Folge, weil so eine CPU ja nicht so viel parallel rechnen kann wie eine Grafikkarte. Aber es läuft einfach nebenbei. Und wenn man das über Nacht laufen lässt, ist es dann halt auch einfach fertig. Und würde ich jetzt meinen Machine Learning-Rechner für jedes Mal, wenn wir das in der Folge aufgenommen haben, immer zum richtigen Zeitpunkt hochfahren, um die Grafikkarte benutzen zu können, wäre das doch irgendwie ein bisschen umständlich.

Janine: Ich habe gerade auch nochmal reingeschaut gehabt in die Zeiten, die ich miterfasst habe, wenn ich Fußball gestartet habe. Und die Realzeit ist auf Helenas Server jetzt bei so circa 400 Minuten Bearbeitung für eine Stunde Podcast circa.

Helena: Ja, das ist schon sehr rechneraufwendig. Ja, wenn man das Ganze dann laufen lässt, kann man eben auch einstellen, dass man Timestamps, also die Zeitpunkte für die einzelnen Wörter haben möchte. Die werden dann auch in verschiedenen Formaten erzeugt. Das ist insofern nützlich, weil z.B. YouTube ein eigenes Untertitelformat hat als andere Programme. Und laut den Entwicklern von Whisper sind die Schwächen, ja, dass wenn es die 30 Sekunden Snippets anpasst, dass es dann sich auch schon mal schafft, die so weit anzupassen, dass es sich dann auffängt und man die gleichen 30 Sekunden machen will.

Janine: Okay.

Helena: Und dass es eben für andere Sprachen als Englisch immer noch zu wenig Daten im Training hatte. Und dass es manchmal Textphrasen komplett halluziniert.

Wie sieht die Arbeit mit dem fertigen Transkript aus? (00:22:08)

Helena: Gut, das waren jetzt die technischen Details zu Whisper. Wie sieht denn die Arbeit mit einem fertigen Transkript dann aus?

Janine: Ja, also was Helena ja gerade schon gesagt hatte, war, dass man verschiedene Formate ausgeben lassen kann. Wenn ich Whisper benutze, fallen am Ende fünf Dateien heraus. Und zwar eine reine Textdatei, wo eben nur das Transkribierte drin steht, mit relativ vielen Zeilenumbrüchen. Und ja, das ist die Datei, mit der ich auch am hauptsächlichsten arbeite. Was ebenfalls rausfallen kann, ist eine Datei mit der Endung VTT. Das ist eine Datei, die hat Absätze. Und die Absätze bestehen jeweils aus zwei Zeilen. Die erste Zeile hat immer einen Zeitstempel mit von bis. Und die zweite Zeile ist der Text, der in diesem Zeitraum gesprochen wird. Dann gibt es noch eine SRT, die sieht fast genauso aus wie die VTT. Allerdings steht vor jedem Absatz noch eine Nummer. Also die Absätze sind dann fortlaufend nummeriert, was zum Beispiel bei Folge 35 dazu geführt hat, dass 865 Absätze erfasst wurden.

Helena: Okay, ja, SRT kenne ich noch von Videodateien und Untertiteln.

Janine: Genau, das ist auch die Datei, die ich dann für YouTube benutze, zum Beispiel für unsere kurzen Videos. Da mache ich auch einmal Whisper über das, was gesprochen wurde, damit ich eben die Untertitel relativ schnell einpflegen kann. Das funktioniert an sich auch ganz gut, aber hat auch ein paar Probleme, dass man hier und da noch manuell nachkorrigieren muss. Im Wesentlichen erleichtert es die Arbeit aber enorm. Dann gibt es eine Datei, die die Endung TSV hat. Das ist eine tabellarische Erfassung gewissermaßen. Also da gibt es durch Tabs getrennte Spalten und zwar drei Stück, nämlich Start, End und Text. Und entsprechend sieht dann jede Zeile so aus, dass es eine Startzeit gibt, dann kommt ein Tab, da steht die Endzeit, dann kommt ein Tab und dann der Text, der in diesem Zeitraum erfasst wurde. Wer schon andere Folgen von uns gehört hat, kann da vielleicht eine Parallele zu CSV-Dateien erkennen. Also zumindest für mich sah das dann so ein bisschen aus. Also es ist halt nicht in einem Excel-Dokument in einer Tabelle drin, aber durch die Tabs wird halt diese Tabellensortierung simuliert.

Helena: Ja, also ich meine, TSV steht ja auch für Tab-Separated Values. Das ist wie eine CSV-Datei.

Janine: Und für was steht das C nochmal dann?

Helena: Komma. Außer für deutsche Excel-Version, da ist es Semikolon.

Janine: Okay, ja, fantastisch. Ja, ihr seht die Parallelen. Wie gesagt, ich benutze davon eigentlich meistens nur die Textdatei, wo das Transkript in Textform drin erscheint und hin und wieder halt auch die SRT für die YouTube-Sachen. Achso, ein Dateiformat habe ich gerade vergessen. Das habe ich mir nämlich zum Schluss aufgehoben. Das will ich jetzt natürlich nicht unterschlagen. Es gibt auch noch eine Datei mit der JSON-Endung, also J-S-O-N. Da steht zunächst einfach auch der komplette Text drin, wobei dieser keine Sonderzeichen direkt geschrieben enthält, sondern diese durch Zeichenkombinationen ersetzt wurden, die wahrscheinlich in einer JSON-Datei dann entsprechend interpretiert werden, als die Sonderzeichen, Umlaute zum Beispiel, für die, die dann stehen. Und nachdem der ganze Text da ist, kommt nochmal der Text. Aber hier hat dann jeder Abschnitt, der wahrscheinlich während des Transkribierens bearbeitet wurde, so wie Helena das eben beschrieben hat, und diese Textabschnitte sind unter sich abgetrennt und haben jeweils Attribute zugewiesen bekommen. Und zwar Beginn, Ende, die Textzeile und noch Tokens, die dort aufgelistet werden. Da drin stehen auch Dinge wie die Kompressionsrate und anderes. Das ist also eine extrem ausführliche Datei. Ich weiß nicht, an welcher Stelle sie sinnvoll ist. Dann meine Beobachtung. Wir haben am Anfang ein bisschen mit der Größe des Modells herum experimentiert und tatsächlich auch mal ein eher niedrigeres Modell ausgewählt, das sehr viel schneller transkribiert. Und da ist auch aufgefallen, was Helena eben schon gesagt hat, es ist relativ ungenau. Meistens passt der Klang, aber die Buchstaben überhaupt nicht. Und die Kommasetzung ist da auch sehr kreativ. Also am wenigsten Arbeit entsteht tatsächlich, wenn das größte Modell benutzt wird. Und deswegen ist da auch die Bearbeitungszeit dann dafür, dass man das Transkript vielleicht veröffentlichen möchte, am geringsten.

Helena: Ja, das wäre irgendwie völlig unsinnig an der Stelle dann zu sparen, wenn der Rechner einfach über Nacht gelaufen lassen werden kann.

Janine: Genau. Eines der lustigsten Dinge, das mir gleich am Anfang aufgefallen ist, war, dass da Sätze vorkamen, die überhaupt gar nicht gesprochen wurden.

Helena: Halluziniert wahrscheinlich.

Janine: Genau. Und was hat Whisper da hin halluziniert ans Ende des Transkripts, wo dann dieser schöne Satz auftauchte? Untertitel im Auftrag des ZDF für funk 2017.

Helena: Joa, wo könnten wohl die Trainingsdaten hergekommen sein? Ich meine, es ist irgendwie naheliegend, dass man Fernsehsendungen nimmt, weil es oft Untertitel gibt.

Janine: Ja, das sind so, ich nenne es mal Trainingsartefakte.

Helena: Ja.

Janine: Sie tauchen nicht immer auf. Ich glaube, es war zwei oder drei Mal, wenn ich sowas gemacht habe. Spannend ist es allemal. Was an den Transkripten auch direkt auffällt, ist die Frage, haben einige vielleicht schon im Kopf gehabt, wird denn danach Sprecher*innen unterschieden? Nein, die Sprechenden werden nicht differenziert. Es wird einfach nur die Sprache identifiziert, erfasst und ausgegeben, ohne dass sie in irgendeiner Form mit extra Informationen ausgezeichnet wird, wie Speaker1, Speaker2 oder so. Das passiert nicht.

Helena: Hast du dir die JSON-Datei mal genauer angeguckt, ob das da vielleicht doch drin ist wieder? Weil eigentlich ist das technisch schon wirklich das einfachste, würde ich behaupten. Aber wenn...

Janine: Ja.

Helena: ... wenn Whisper nicht darauf ausgelegt ist, ich habe es jetzt auch nicht gesehen in dem Paper, was sie veröffentlicht haben dazu, dass sie das tun würden. Aber ich kann mir auch vorstellen, dass es zumindest bei typischen Untertitelformaten ja meistens nicht mit drinsteht, wer spricht. Ja, und vielleicht deswegen haben sie es auch nicht darauf trainiert. Aber das wäre etwas, wo dann unsupervised learning wahrscheinlich nützlich wäre, das im ersten Schritt den gleichen Sprecher wiederzufinden oder so.

Janine: Also ich gucke mal, was hier drin ist. Da ist der Text, dann kommen Tokens, die unterschiedliche Zahlen haben. Temperature, AVG Lockprop, Compression Ratio, No Speech Prop, ID, Seek, Start and Text. Ne, falls nichts von dem irgendwas über Speaker aussagt, dann ist es da tatsächlich nicht drin. Aber ich weiß auch nicht, was Temperature und AVG Lockprop und No Speech Prop so ausmachen.

Helena: Ja, No Speech ist wahrscheinlich die Wahrscheinlichkeit, dass das keine Sprache ist.

Janine: Stimmt, das muss ja auch irgendwo getestet werden.

Helena: Ja.

Janine: Ja, das passiert jedenfalls hier nicht, dass nach Sprechenden irgendwie differenziert wird, weswegen ich das dann schließlich manuell mache. Was auch interessant ist und vielleicht mit dem zusammenhängt, wo festgestellt wird, ob etwas Sprache ist oder nicht, in der Regel werden die allermeisten Ähms und Ähs komplett ignoriert. So viele Ähms und Ähs, wie wir doch noch in der Folge drin haben, die ich nicht rausgeschnitten habe, so viele landen definitiv nicht im Transkript. Ich finde das an der Stelle auch nicht schlimm, weil es den Lesefluss durchaus ja auch stören kann, wenn da ständig Ähms und Ähs drin sind. Manchmal kann es aber vorkommen, dass die doch mit transkribiert werden. Helena hat zum Beispiel einmal ein Äh bekommen von Whisper, wo Helena sagte, äh, nicht ganz. Das war offensichtlich ein für sich stehender, vollständig genugger Satz, wo das Äh eine Aussage hatte. Ich weiß es nicht.

Helena: Ja, aber klingt auch so. Also klingt für mich so, als wäre das schon Teil des Satzes, das man darstellen muss, dass ich gerade nachgedacht habe...

Janine: Ja.

Helena: ...und dass das Ergebnis ist, dass ich sage, nicht ganz, während man beim normalen Sprechen ja öfter mal nachdenkt und dann Äh sagt und das ist dann wirklich völlig irrelevant für den Text am Ende.

Janine: Ich bin mir nicht sicher, ob das wirklich tatsächlich so differenziert entschieden wird bei Whisper. Eine andere Interpretation wäre, dass das Äh vielleicht nachdrücklich deutlich und lang genug war, um nicht als Hintergrundgeräusch abgetan zu werden.

Helena: Ja.

Janine: Auch eine Option. Was dann jedenfalls auch auffällt ist, was Helena ja auch schon gesagt hatte, manche Stellen werden eben einfach nicht als Sprache identifiziert. Zum Beispiel auch, wenn Musik läuft, also in unserem Intro etwa oder am Ende. Und an den Stellen macht Whisper einfach nichts. Also es stehen dann auch keine Kommentare wie Musik. Das ist zum Beispiel etwas, was ich dann bei den YouTube-Untertiteln manuell ergänze. Whisper zeichnet nicht auf, dass da etwas passiert akustisch, sondern da gebe ich dann manuell noch einmal im Untertitel Klemmer auf Musik Klemmer zu an, damit eben auch ersichtlich ist, da passiert gerade akustisch trotzdem was. Das macht Whisper einfach nicht. Was Whisper auch nicht erfasst und in irgendeiner Form mit Informationen hinterlegt ist, wenn eine von uns lacht. Hin und wieder kommt das ja vor, wenn wir podcasten.

Helena: Ja.

Janine: Das wird auch nicht erfasst. Wenn parallel etwas gesagt wird, Während eine zum Beispiel lacht oder irgendwie auch gerade redet, kann es durchaus sein, dass nicht genau genug Sprache erfasst werden konnte vielleicht oder so. Und dann steht da auch einfach mal nichts. Auch hier macht Whisper keine Auslassungszeichen oder keine Informationen, da fehlt etwas, das konnte nicht validiert werden als Sprache. Dann steht es da einfach nur nicht da. Das betrifft zum Beispiel auch so kurze Zwischenrufe, Sachen wie ja oder mhm wird auch nicht so richtig erfasst. Das ist das. Lustig wird es im nächsten. Eine interessante Beobachtung fand ich auch, ist, dass manche Worte einfach komplett neu interpretiert und verstanden und auch erfunden werden. Das fällt vielleicht wieder in den Bereich der Halluzinationen. Es gab eine Folge, wo das Wort Kaffeesatz drin vorkam, was dann zu Kaffeesalz interpretiert wurde und im Skript so ausgegeben wurde.

Helena: Was mich schon sehr überrascht, weil der Trend, dass man in Kaffee Salz reintut, ist noch gar nicht so alt.

Janine: Das machen wirklich Menschen? Ja?

Helena: Ja, wenn der Kaffee ein bisschen zu sauer ist, kann man ein bisschen Salz reinmachen.

Janine: Okay, also es ist tatsächlich nicht ein komplett erfundenes Wort und wahrscheinlich gibt es schon eine Industrie, die sich drauf stürzt und nur noch Kaffeesalz produziert. Ich weiß es nicht...

Helena: Ich habe dieses Wort noch nie vorher gehört.

Janine: Ich halt auch nicht. Welches Wort ich auch nicht gehört habe, war Schokoladenkurve. Ich fand das sehr niedlich. Also Helena sagte so einen Satz in einer Folge, der da lautete: dass man die Daten ganz gut nutzen kann, um jetzt sowas wie eine Gaussche Glockenkurve reinzumalen. Was Whisper verstanden hat, war, dass man die Daten ganz gut nutzen kann, um jetzt sowas wie eine Gauss-Schokoladenkurve reinzumalen. Im direkten Vergleich nebeneinander kann sich ja durchaus vorgestellt werden, wo das herkommt. Also das Gaussche produziert ein sehr deutliches Sch und Glockenkurve ist jetzt vielleicht nicht so das sinnvolle Wort, dann halt Schokoladenkurve.

Helena: Ich bin sehr gespannt, was Whisper an dieser Stelle vom Podcast macht.

Janien: Ja, und das werden wir dann bei der nächsten Folge wissen. Und das Interessante war jetzt aber, und auch dafür hat uns Helena eben eigentlich schon den Grund erklärt, dass Whisper in der Folge konsequent dabei geblieben ist, Schokoladenkurve zu schreiben, auch wenn danach das Gaussche nicht mehr erwähnt wurde, sondern nur noch ... Glockenkurve ... gesagt wurde. Dann stand da halt die ganze Zeit wieder Schokoladenkurve drin. Jetzt erinnern wir uns kurz, was Helena eben ausgeführt hat: Das Transkript des Satzes davor wird in den nächsten Satz mit rübergezogen.

Helena: Ja.

Janine: Wahrscheinlich wurde dann das Wort an das Verständnis des ersten Satzes direkt angeglichen. Da wurde dann zwar ganz eindeutig Glockenkurve gesagt, ohne einen Zusatz, aber weil ja vorher Schokoladenkurve rausgekommen ist, wurde Schokoladenkurve wahrscheinlich weiter benutzt.

Helena: Ja, sehr konsequent. Ich mache das ja auch für die Nachbearbeitung leichter, das zu korrigieren.

Janine: Das stimmt. Suchen und Ersetzen ist hier absolut schön und sinnvoll. Was aber daran noch lustiger ist, ist, dass vielleicht zwei, drei Minuten davor Whisper das tatsächlich richtig erkannt hatte und Gaussche Glockenkurve schrub.

Helena: Ja.

Janine: Da merkt man dann auch wieder, okay, der Abstand zu der ersten Erfassung dieses Begriffs war halt schon zu groß. Das wurde sinnfällig nicht mehr weitergetragen in den nächsten Satz hinein, weil das Wort da nicht auftauchte. Und als dann das nächste Mal Gaussche Glockenkurve aufkam, wurde es halt neu erfasst, neu transkribiert und dann kam halt Gauss-Schokoladenkurve raus.

Helena: Ja.

Janine: Die Nichtkonsequenz von Whisper, was die Gleichmäßigkeit oder Homogenität von Ausdrücken angeht, sieht man dann auch in Abkürzungen. In Folge 35 hat Whisper viermal z.b. benutzt und zwölfmal zum Beispiel ausgeschrieben. Und das Gleiche passiert dann auch mit dem Wort Prozent. Mal steht es ausgeschrieben dort und mal das Prozentzeichen im Transkript. Also das ist da nicht konsequent in der Durchführung durch das ganze Skript hindurch, das variiert einfach. Und die letzte Beobachtung ist, dass Whisper manchmal auch in die Satzstruktur eingreift und einfach Worte ändert, die ähnlich sind oder auch den Satz ganz umstellt. Leider habe ich gerade kein Beispiel mehr für so eine komplette längere Umstellung parat. Was ich aber jetzt gerade noch gefunden hatte, war, dass Helena an einer Stelle sagte, genau, Violinenplots sind eben eine moderne Variante. Und Whisper dann im Transkript geschrieben hatte, ja, Violinenplots sind eben eine moderne Variante. Ich weiß nicht, ob Whisper festgestellt hat, dass wir ständig genau sagen und öfter mal ja benutzen könnten und das quasi eine stilistische Entscheidung war. Ich verstehe nicht, wie aus genau ja werden kann. Aber das Gleiche passiert manchmal auch eben mit Satzstrukturen. Die Verben werden weiter nach vorne gestellt oder weiter nach hinten. Hier und da passieren manchmal so leichte Verschiebungen, dass es nicht wortwörtlich ist.

Helena: Ja. Witzig.

Janine: Ja. Zusammengefasst, was muss also nachträglich noch im Transkript gemacht werden? Die offensichtlichsten Dinge sind eben die Absätze nach Sprecherinnen verteilen. Für den Podcast füge ich meistens auch noch die Überschriften ein, damit das Transkript beim Durchscrollen besser zugänglich ist und auch zu den einzelnen Kapiteln passt und zu sehen ist, wann die anfangen. Dann höre ich die Folge, während ich das Transkript durchgehe und dabei korrigiere, denn da fallen eben noch manche Dinge besser auf, wie das mit diesen Satzumstellungen. Und ja, alles was unter Beobachtung oben erwähnt wurde, versuche ich auch irgendwie zu berücksichtigen. Also das Kaffeesalz statt Kaffeesatz zum Beispiel. Da muss man schon sehr genau hingucken, um diesen Fehler überhaupt zu finden.

Helena: Ja.

Janine: Und den Satz vielleicht wieder richtig hinstellen, wenn ich eher dazu geneigt bin, die Sachen so dastehen zu haben, wie sie tatsächlich gesagt haben und nicht einfach irgendwie. Eine der Fragen, die wir ja dann am Anfang hatten, wie viel Zeit beansprucht das Überarbeiten des Transkripts durch Whisper im Vergleich zu dem, was wir vorher nämlich gemacht haben, den ausführlichen Stichworten in den Shownotes, die ich selbst zusammengetippt habe aus unseren Notizen für das Skript. Also für die Shownotes in Stichpunkten habe ich in den Folgen 1 bis 33 im Schnitt 432 Minuten gebraucht. So, Zeit für die Shownotes mit Transkript. Um das zu korrigieren, also ab Folge 34 bis 39 habe ich jetzt auf die Daten geguckt. Es waren nur sechs Folgen, aber da waren das durchschnittlich 263 Minuten.

Helena: Also mehr als zwei Stunden schneller. Ja, das ist jetzt ausführlicher und schneller.

Janine: Genau. Die Frage ist, warum trotzdem noch 260 Minuten? Ich meine, es sind auch immer noch fast vier Stunden an Arbeitszeit, die ich da wirklich investiere. Dabei passieren allerdings auch so Sachen, auch in den Minuten für die Shownotes in Stichpunkten war das enthalten, wie Links raussuchen, Quellen nachpflegen, alles vernünftig formatieren und all solche Dinge. Das passiert dann in diesen 263 Minuten auch. Das ist nicht nur das reine den Text bearbeiten und vernünftig aufbereiten. Und die Übersetzungszeit oder die Transkriptionszeit, die Whisper braucht, können wir unter den Tisch fallen lassen, weil das passiert in der Nacht.

Helean: Ja, das ist keine menschliche Arbeitszeit.

Janine: Ja, das waren so die Beobachtungen. Dann kommen wir doch mal zu den Vergleichen.

Wie sieht der direkte Mensch vs. Maschine Vergleich aus? (00:41:00)

Helena: Ja, Vergleiche heißt jetzt, gut, wir haben jetzt Whisper, also eine künstliche Intelligenz, beziehungsweise ein Neuronales Netz, was sonst Texte produziert aus unserem Podcast. Und jetzt natürlich die Frage, wie gut ist es eigentlich? Man muss einiges dran nacharbeiten, aber wie gut ist es im Vergleich zu einem Menschen? Das haben wir uns gefragt und deswegen nach Leuten gesucht. Und offenbar haben insgesamt vier Menschen teilgenommen. Und dafür hattest du, Janine, sechs Beispiele rausgesucht, also kurze Tonschnipsel aus unseren transkribierten Folgen. Und über die können wir dann mal reden.

Janined Ja, vier Personen haben sich freiwillig gemeldet, für uns diese Transkripte dann anzufertigen. Und wir haben das auch Whisper nochmal gegeben. Also es gab so eine wenige Minuten lange Datei. Ich habe an diese vier Personen anonyme Namen verteilt. Wir haben hier Ahorn, Flieder, Holunder und Feige. Und dann gucken wir doch mal, was da passiert ist bei Beispiel 1.

Beispiel 1 - Gendergap (00:42:01)

Janine: Beispiel 1.

Helena: Und dafür gibt es die BIK Kennzahl. Das ist eine Kennzahl nach der Orte, nach Bevölkerungsdichte und Ballungsraumstruktur bewertet werden. Und Orte, die kleiner als irgendwie tausend EinwohnerInnen sind, wurden für diese Studie auch zusammengelegt.

Janine: Ja, was ist hier passiert? Beziehungsweise worauf haben wir das Augenmerk gelegt? Ich habe jedes Beispiel nach einem bestimmten Thema ausgesucht. Und wie vielleicht zu hören war, war in diesem Beispiel ein Gender Gap vorhanden, den Helena gesprochen hat, nämlich tausend Einwohner*innen.

Helena: Ja.

Janine: Wie sind Whisper und unsere vier Personen damit umgegangen?

Helena: Ja, also Whisper hat das durchaus gehört tatsächlich und das Ganze dann mit Binnen-I gegendert, das EinwohnerInnen. Also eigentlich auf eine Weise gegendert, wo man diese Sprachlücke nicht so wirklich drin hat, weil zu der Zeit, als ich das Binnen-I gelernt hatte, hat das noch niemand so gesprochen. Das ist erst später gekommen, als man so was wie das Sternchen hatte. Manchmal sieht man auch den Unterstrich. Manchmal wird ja auch noch der Doppelpunkt benutzt. Das hat Ahorn auch so gemacht. Ahorn hat den Doppelpunkt benutzt, während Flieder und Holunder jeweils das Sternchen benutzt haben. Und Feige hat das gar nicht benutzt und nicht gegendert. Was auch noch auffällt, also ich hatte extra dazu geschrieben in die Aufgabenstellung, wir machen Whisper keine Vorgabe, wie es transkribieren soll. Also bekommen die Teilnehmer*innen dieser auch keine Vorgaben. Feige hat hier als einzige Person dann zum Beispiel noch A und B für die Sprechenden hinzugefügt, nämlich mein Beispiel 1 als A markiert mit Doppelpunkt und B Doppelpunkt dann das, was Helena gesagt hat. Das ist sozusagen eine Zusatzinformation, die hier mit reingekommen ist. Genauso wie bei Holunder zum Beispiel ersichtlich ist, dass am Ende steht, Sternchen lach Sternchen. Da ist also auch eine zusätzliche Information noch mit reingekommen, die Whisper zum Beispiel nicht abbildet.

Helena: Ja.

Janine: Aber Whisper erkennt einen Gender Gap sprachlich und markiert das auch irgendwie, was ist mir, weil wir das mit Sternchen in unseren Transkripten machen möchten. Es dann aber trotzdem auch leicht macht, das mit Suchen und Ersetzen schnell zu ändern über das ganze Transkript hinweg.

Helena: Das stimmt.

Janine: Dann kommen wir mal zum nächsten Beispiel. Helena und Janine reden übereinander.

Beispiel 2 - Übereinander reden (00:44:42)

Beispiel 2. Die Linie hätte man auch einfach nur länger zeichnen können. Vielleicht als Beispiel oder so.

Janine: Sag du doch mal als erstes, was fällt dir auf, wenn du auf die vier Personen und Whisper guckst?

Helena: Ja, also wenn ich auf Whisper gucke, dann ist das einfach eine lange Zeile, wo das hatten wir generell schon als Thema überhaupt nicht zwischen den Sprechenden unterschieden wird. Das ist jetzt erstmal der erste auffällige Teil, während zwei Personen, nämlich Flieder und Feige, jeweils das sehr deutlich unterscheiden. Ahorn macht es nicht und Holunder macht es einfach nur durch neue Zeile im Gegensatz zu denen, die dann noch Person 1 und 2 oder A oder B davor geschrieben haben, meine ich jetzt. Und hier fällt auch wieder auf, dass das Lachen mit transkribiert wurde bei Ahorn und Flieder. Und ja, Feige hat genau das Problem auch gehabt und es angemerkt, dass die Reihenfolge nicht ganz eindeutig sei zwischen den beiden Sätzen, die da aufgeschrieben wurden. Ich meine, das war ja der Sinn von diesem Beispiel, genau das zu testen.

Janine: Genau, ich habe gerade nebenbei versucht herauszufinden, was ich denn daraus gemacht habe, weil was ich auffällig finde, es hat wirklich keine Person identisch aufgeteilt.

Helena: Ja.

Janine: Bei Ahorn ist ja keine Unterscheidung zwischen den entsprechenden Flieder hat. Die Linie hätte man auch einfach nur länger zeichnen können. Person 2 ja, vielleicht als Beispiel oder so. Person 1 ja. Das ist im Prinzip, was ich auch in unserem Transkript dann geschrieben habe, in dem das veröffentlicht wurde. Bei Holunder sieht es sehr ähnlich aus, allerdings ist da das Hätte man irgendwie zweimal reingerutscht.

Helena: Ja.

Janine: Da ist sozusagen ein Wort da, das gar nicht gesprochen wurde. Bei Feige sind viel mehr Wechsel vorhanden.

Helena: Ja.

Janine: Und das ist auch was, was ich so aus der Erfahrung von den Transkripten, die wir auch beim haecksenwerk angefertigt haben bisher, aufgefallen ist, dass manchmal Menschen, die beim Transkribieren helfen, wenn sie nicht mit den Stimmen vertraut sind, tatsächlich Probleme haben, diese auseinander zu halten. Was einfach daran liegt, dass man sich unglaublich stark darauf konzentrieren muss, sobald übereinander geredet wird, auch für Menschen.

Helena: Und das passiert ja relativ schnell.

Janine: Ja.

Helena: Man könnte natürlich, weil wir unterschiedliche Tonspuren aufnehmen, das theoretisch ja trennen, aber das wäre auch Aufwand, weil es ja inhaltlich manchmal auch keinen Sinn ergibt, das zu trennen.

Janine: Also das ist tatsächlich schon auch was, was ich mache im Schnitt manchmal, dass ich gucke, wenn die Option besteht, Worte, die gleichzeitig gesprochen werden, vielleicht in kleinen Sprechpausen leicht zu verschieben. Aber ab einer gewissen Spannbreite ergibt es einfach gar keinen Sinn mehr, das zu verschieben. Und dann heißt es nur, entweder bleibt es drin oder es wird komplett rausgelöscht. Ja, das sind so die Produktionsentscheidungen dann. Genau, kommen wir mal zu Beispiel drei. Hier war der Fokus auf den Auslassungspunkten, was ich natürlich vorher niemandem gesagt habe, worauf die letzte Fokus lag.

Helena: Ja.

Janine: Weil sonst hätte es ja weniger Spaß gemacht. Hören wir mal kurz rein.

Beispiel 3 - Auslassungspunkte (00:48:03)

Janine: Beispiel drei. Ich hatte noch eine vierte Sache genannt, die kumulierte Häufigkeit. Was zum... ist das?

Janine: So, das hatte mich nämlich tatsächlich interessiert, weil Whisper wirklich Auslassungspunkte geschrieben hat.

Helena: Ja, Whisper hat Auslassungspunkte benutzt, aber auch drei der vier Transkribierenden. Und die Personen, die nicht die Punkte benutzt haben, hat es mit Pause markiert.

Janine: Was daran ersichtlich ist, dass sowohl Menschen die Konvention erkannt haben, hier wird etwas bewusst nicht gesagt, als auch, dass Whisper diese Sprechpause tatsächlich markiert hat. Also, obwohl ja sonst eigentlich extra Informationen von Whisper nicht geliefert werden, sowas wie Lachen oder andere Dinge, Sprecherwechsel und dergleichen.

Helena: Was sich auch immer unterscheidet, sowohl bei Whisper als auch zwischen den Transkribierenden, ist die Interpunktion.

Janine: Ja.

Helena: Hier hatten jetzt zum Beispiel auch zwei Leute Doppelpunkte gesetzt, was ich auch sehr gut nachvollziehbar finde. Und Whisper einmal einen Punkt gesetzt hatte und wir haben es zweimal laufen lassen auf diese Beispiele und einmal ein Komma.

Janine: Das ist mir tatsächlich auch aufgefallen, dass die Interpunktion, die Whisper zur Verfügung stellt, eine reduzierte Palette ist. Also es gibt Punkt und Komma bei Whisper, aber Doppelpunkte oder gar ein Semikolon werden in dem Sinne nicht gesetzt, um Sätze strukturieren zu können.

Helena: Ja.

Janine: Aber von Menschen. Und hier auch wieder, Menschen können da wahrscheinlich auch anders drauf hören, wie Sprechpausen zu interpretieren sind. Wobei Whisper ja die Auslassungspunkte erkannt hat.

Helena: Ja.

Janine: Dann kommen wir doch mal zu Beispiel vier, das ich völlig versaut habe, weil eigentlich wollte ich den Abschnitt nehmen, wo die Schokoladenkurve als erstes drin vorkam. Aber naja, hören wir mal in das Beispiel rein.

Beispiel 4 - Satzzeichen und -länge (00:49:57)

Beispiel vier. Manche Leute sind größer, manche kleiner, aber wenn man alle zusammenzählt, hat man halt nur so eine bestimmte Kurvenform. Das ist ja dann die Gaussche Glockenkurve. Beziehungsweise ist das eines der Modelle, die man da gut ranlegen kann. Und das kommt auch in der Physik sehr oft vor, deswegen bin ich da auch sehr mit vertraut. Und wenn man dann zwei solche Glockenkurven hat, die verschiedene Ursachen haben und in eine Grafik zeichnet, dann hat ja verschiedene Ursachen. Und deswegen, wenn ich dann zwei so glockenartige Dinge oder zwei Hügel sehe in so einem Histogramm, dann denke ich, da das sind doch wahrscheinlich zwei verschiedene Dinge zusammengemischt, zum Beispiel zwei Arten Pinguine.

Janine: Das war jetzt etwas länger und wie gesagt, das war leider nicht der Abschnitt jetzt wie gesagt nicht der Abschnitt wo Whisper beim ersten Mal die Schokoladenkurve erkannt hat, sondern der Abschnitt aus der Folge, wo auch gleich die Gaussche Glockenkurve richtig erkannt wurde. Warum dieser Abschnitt aber trotzdem relativ interessant war, ist, was Helena eben schon gesagt hat: die Interpunktion. Weil es jetzt ein relativ langer Abschnitt war, wie das jetzt verteilt wird. Mein Eindruck ist, Whisper kann durchaus dazu neigen, sehr lange Sätze zu benutzen.

Helena: Ja, das sind schon beeindruckend lange Sätze, also der letzte Satz ist bei der einen Whispervariante sehr lang.

Janine: Wobei ich überraschend find, dass beispielsweise Feige, gar keine Interpunktion so richtig benutzt, nein, tatsächlich gar keine.

Helena: Ja.

Janine: Da ist nur der reine Text da, aber mit Groß-Klein-Schreibung und bei den anderen Personen gibt es auch wiederum Kommata, die alles strukturieren. Und tatsächlich neigt zum Beispiel Holunder zu einem wesentlich längeren Satz als Whisper. Das ist ja dann die Gaußsche Glockenkurve, bzw. ist das eines der Modelle die man da gut ranlegen kann und das kommt auch in der Physik sehr oft vor, deswegen bin ich da auch sehr vertraut und wenn man dann zwei solche Glockenkurven hat, die als verschiedene Ursachen haben und in eine Graphik zeichnet, dann hat ja verschiedene Ursachen und deswegen wenn ich dann zwei so glockenartige Dinge oder zwei Hügel sehe so in einem Histogramm, ja dann denke ich das sind doch wahrscheinlich zwei verschiedene Dinge zusammengemischt, zum Beispiel zwei verschiedene Arten Pinguine... . Da war kein Punkt zwischen.

Helena: Aber Kommas.

Janine: Genau, aber Kommata. Und Whisper hat mehr Punkte verteilt. Ich glaube ich neige auch eher dazu weniger Punkte zu verteilen, wenn ich selber transkribiere würde. Einfach weil mündliche Sprache nicht extrem so dazu gedacht ist, in vollständigen Sätzen zu reden. Also die ist durchaus viel flexibler als schriftliche Sprache und hier wird halt einfach mündliche Sprache verschriftlicht. Und ich denke mal aufgrund der 30 Sekunden, die Whisper sich rausnimmt, kann es vielleicht doch dazu kommen, dass mehr Punkte gesetzt werden, als wenn Menschen trankribieren.

Helena: Könnte sein.

Beispiel 5 - Daran vs. Darin (00:52:49)

Janine: Gut, dann Beispiel 5. Daran vs. Darin. Habe ich es genannt, das Problem hier.

Helena: Ja, gut. Das war jetzt diese Folge. Und ja, die nächste Folge erscheint am 17. Juni. Und daran geht es um natürliche Experimente.

Helena: Ah ok, hier war das Ding, dass alle darin schreiben, aber Whisper daran.

Janine: Genau.

Helena: Und was haben wir gesagt?

Janine: Ähm, daran. Also beziehungsweise es war ein Daran, dass vielleicht kurz vor Ende des Wortes noch zu einem darin geworden wäre sein könnte. Aber es klingt tatsächlich wie ein daran. Aber ich habe mich dann tatsächlich auch dazu entschieden ein darin daraus zu machen. Also manchmal erkennt Whisper Sachen korrekt...

Helena: Ja.

Janine: ... aber vielleicht entscheidet sich dann der Mensch, der für ein Transkript verantwortlich ist, trotzdem dafür es nicht zu übernehmen, sondern das richtige Wort zu schreiben, damit es einfach beim Lesen angenehmer ist.

Helena: Ja, weil daran ist ja eindeutig ein Versprecher.

Janine: Ja.

Helena: Das ergibt ja keinen Sinn das Wort an dieser Stelle, das ist schon richtig, wenn man sagt darin. Gut, das haben die Menschen auch alle hingekriegt. Und Whisper hat halt das Wort, was gesagt wurde, genommen.

Janine: Ein bisschen spannend war, dass Flieder tatsächlich am 3. Juni geschrieben hat, schlicht und ergreifend verhört vielleicht oder kurz was anderes gemacht und dann einfach eine 3 ran gesetzt statt des 17. Juni. Aber ja, Fehler können halt auch Menschen passieren. Gut, dann kommen wir noch zum letzten Beispiel. Das ist auch noch mal ein langes, weil ich da eigentlich das mit der Interpunktion noch mal mit erfassen wollte, aber es geht an sich um ein doppelt vorkommendes Wort, das wir jetzt mal kurz hören werden.

Beispiel 6 - irgendwie ... irgendwie (00:54:37)

Janine: Beispiel 6.

Helena: Bezogen auf das US-Militär. Ich habe jetzt keine Informationen über irgendwie den Stand irgendwie in Deutschland oder so, wo das Konzept ja ein bisschen anders funktioniert, wie die Leute ausgewählt werden. Aber die These ist jetzt einfach, dass Leute, die weniger Optionen in ihrem Leben haben, zu gestalten, was sie eigentlich in ihrem beruflichen Leben machen wollen, eher dann auch zum Militär gehen. Und Leute, die eher weniger Optionen haben, potenziell auch die Leute sind, die eher weniger verdienen.

Janine: Ja, was habe ich hier gemacht? Ich habe einfach nur geguckt, wie Menschen mit dieser doppelten Erwähnung des Irgendwies, was ja dann auch eigentlich überflüssig ist, umgehen. Helena sprach, ich habe jetzt keine Informationen über irgendwie den Stand irgendwie in Deutschland. Und das hat jede Person auch so erfasst. Und Whisper hat es, als die Folge transkribiert wurde, einfach ausgelassen. Da hat Helena schlicht und ergreifend gesagt, ich habe jetzt keine Informationen über den Stand in Deutschland.

Helena: Also keines von den beiden Irgendwies transkribiert.

Janine: Was aber lustig ist, ist, ich habe die Beispiele Whisper auch noch mal transkribieren lassen, die kurze Datei mit allen Beispielen zusammen. Da sind beide Irgendwies mit drin.

Helena: Ja, macht schon nicht immer dasselbe.

Janine: Und was Whisper beim zweiten Mal auch gemacht hat, ist mein Vielen Dank fürs Mitmachen, dass ich am Ende dieser Audiodatei eingesprochen habe, hat es natürlich auch transkribiert. Und das haben auch zwei Personen gemacht, die uns geholfen haben, dieses Experiment durchzuführen. Ach so, ja, und was hier auch noch mal zu sehen ist, sind wieder die Sachen mit den Doppelpunkten. Flieder schrieb zum Beispiel bezogen auf das US-Militär-Doppelpunkt, ich habe jetzt keine Informationen, bla bla bla. Das macht Whisper hier auch wieder nicht und erkennt sozusagen diese Marker nicht, wann Menschen in Doppelpunkten sprechen und wann nicht. Oder es ist schlecht untergreifend egal, weil es ja eigentlich mit einem Komma vielleicht genauso gut, aber eben nicht so exakt abgebildet wird.

Helena: Ja, ich meine, bei gesprochener Sprache ist das vielleicht meistens noch okay, aber würde man jetzt wirklich eine Auflistung aufzählen oder so, wo man das ja immer über Doppelpunkte und dann halt eine Stichprojektliste oder so macht, ja, dann ergibt es irgendwie keinen Sinn, dass da kein Doppelpunkt landet. Aber Whisper würde ja nicht mal Aufzählungspunkte hinkriegen.

Janine: Das denke ich auch, ja. Ich sehe gerade noch, Feige hat zum Beispiel eine Sache gemacht, die ich, wenn ich Texte schreibe, auch super gerne mache und zwar transkribiert, was sie eigentlich in ihrem beruflichen Leben machen wollen und hat hier beruflichen großgeschrieben. Und das mache ich auch super gerne, solche Adjektive, die ich selbst als irgendwie wichtig empfinde, schreibe ich meistens automatisch groß und muss es dann später noch mal korrigieren, wenn ich einen Text zum zweiten Mal lese.

Helena: Ja, ich schreibe meist die Adjektive groß und dann die Nomen dahinter klein.

Janine: Ja, das passiert mir auch öfter dann, dass ich das einfach komplett umdrehe. Manchmal wird beides groß und ja.

Helena: In dem Moment, wo ich das Adjektiv schreibe, ist das für mich ein Ganzes irgendwie, das gehört ja zu den Nomen, denke ich halt an das Nomen schon und schreibe es dann halt groß.

Janine: Also, ich fand, ich hoffe, beim Zuhören ging euch das ähnlich, diesen Vergleich tatsächlich teilweise ziemlich spannend und ich hoffe, ich habe da auch für euch spannende Beispiele rausgesucht. Was mir dabei auf jeden Fall aufgefallen ist, ist so richtig diese Bedeutung von Zusatzinformationen in Transkripten. Und deswegen würde ich einfach sagen, kommen wir jetzt in ein schönes knackiges Fazit.

Fazit (00:58:20)

Helena: Ja, also mein Fazit ist, Whisper ist sehr nützlich und spart auch sehr viel Zeit. Aber man muss auch bedenken, wo dann die Grenzen sind, weil sowas wie, dass man lacht und so, das hilft ja durchaus, wenn man einen Text liest, auch dabei zu erkennen, was eigentlich so eine emotionale Bedeutung eines Satzes ist. Das kriegt Whisper natürlich nicht hin. Und das ist ein generelles Problem von Transkripten, dass man das irgendwie auch transportieren muss.

Janine: Genau. Und mich hat das halt auch dazu gebracht, gerade wo ich jetzt auch gesehen habe, wie unsere menschlichen Teilnehmer*innen da agiert haben, dass ja irgendwie Menschen doch sehr wichtig ist, was da passiert. Wir hatten, wie gesagt, keine Vorgaben gemacht, aber mehrere hatten an unterschiedlichen Stellen eben sowas wie Emotionen, Lachen oder so mit erwähnt und so Zusatzinformationen reingegeben, die jetzt ein Mensch, der nur das Transkript liest und nicht die Podcast-Folge hört oder nicht hören kann, dass diesem Menschen halt auch die Informationen fehlen und damit auch die grundsätzliche Stimmung, die wir beim Podcasten so haben. Und dass das für Menschen doch sehr wichtig zu sein scheint, Whisper hingegen ja völlig egal ist, weil es geht eben um den Text, dafür wurde es gemacht.

Helena: Ja, außerdem, wenn man sich nur den Text anguckt, dann schneidet Whisper schon im Mensch-Maschine-Vergleich ziemlich gut ab. Menschen machen halt auch ab und zu Fehler, genauso wie Whisper. Also man muss, glaube ich, in beiden Fällen, wenn man komplette Transkripte von einem Menschen machen würde, auch da nochmal einen Schritt haben, dass dann jemand anders das sich nochmal anhört, parallel zum Lesen wahrscheinlich, wenn man Qualitätskontrolle machen würde, so wie bei Whisper ja auch.

Janine: Mir ist jetzt noch eingefallen, ich habe eine Frage bekommen gehabt, das passt jetzt vielleicht ins Fazit noch ganz schnell, weil wir haben ja sowas erwähnt, wie sprechende Personen werden nicht unterschieden. Könnte jetzt eigentlich für uns das noch besser gemacht werden? Könnten wir selber unsere korrigierten Transkripte, so wie wir es gerne hätten beispielsweise, zurückfüttern zu Whisper und dadurch dann für unsere individuelle Anwendung das besser machen?

Helena: Also ich meine, wenn Whisper eben nicht in der Lage ist, Menschen auseinanderzuhalten und die Information zu geben, bringt es auch nichts, das Whisper selber zurückzufüttern. Da wäre es eher naheliegend, dass man eben diese Zeitstempel in dem Text mit nutzt und dann nochmal ein anderes neuronales Netz, was einfach nur auf unsere Stimmen zur Klassifizierung trainiert ist, dass es das dann nochmal auseinander dividiert. Das sagt, zu welchen Zeitpunkten hat wer geredet. Da könnte man den Text hinterher dann mit nachbearbeiten mit dieser Information.

Janine: Ja und jetzt aber so inhaltliche Korrekturen beziehungsweise so andere Sachen, die korrigiert werden, jetzt nicht nur Sprecher*innen. Könnte man das auch zurückgeben und Whisper damit für sich selbst besser machen oder müsste das auch über die individuelle eigene Stimmtraining dann sozusagen laufen?

Helena: Also ich kann das jetzt gerade nicht einschätzen, wie viel jetzt irgendwie ein paar Stunden Audio helfen, aber man hat ja das Modell und beim maschinellen Lernen ist es üblich, dass man ein Modell hat und auf Basis dessen halt weiter trainiert. Das heißt, das Modell, was wir uns runterladen können, können wir auch genauso benutzen, um das weiter fortzutrainieren mit unseren eigenen Daten.

Janine: Ahja, okay.

Helena: Das haben wir jetzt nicht gemacht. Das wäre sicherlich auch einiges an Aufwand irgendwie herauszufinden, wie man eigentlich Whisper trainieren kann weiter, wie das technisch, weil man technisch dafür alles irgendwie umsetzen müsste. Aber im Prinzip wäre das möglich, dass man, gerade wenn man jetzt irgendwie noch mehr als wir haben an Texten, dass man da nochmal 100 Stunden oder so drauf trainiert. Ich weiß halt nicht, wie stark die Verbesserungen werden, aber ich kann mir schon vorstellen, dass das was bringt. Ich meine, das sind ja irgendwie hunderttausend Stunden. Wie viele Stunden haben wir jetzt schon trainiert? Auch schon irgendwie sechs oder so.

Janine: Ja, circa, ja.

Helena: Wenn man sich jetzt irgendwie, keine Ahnung, ein größeres Podcast-Label anguckt, für die würde das schon Sinn machen, wenn die auch selber in einem Jahr einige hundert Stunden produzieren, bis tausend Stunden. Das ist dann schon mindestens ein Prozent mehr Daten mit tendenziell einer höheren Qualität, wenn sie selber verbesserte Transkripte nutzen. Könnte sich lohnen.

Janine: Ja, spannend. Gut, und damit sind wir dann tatsächlich durch. Wir haben festgestellt, Whisper funktioniert für uns ziemlich gut, für unsere Zwecke, weil wir das so anbieten möchten, dass unsere gesprochenen Worte auch tatsächlich im Volltext zugänglich sind für Menschen. Aus verschiedenen Gründen kann das ja helfen. Und genau, ist eine sinnvolle Sache. Wer es wirklich fehlerfrei haben will, muss dennoch manuell ein bisschen nachbearbeiten, beziehungsweise in die eigene angenehme Struktur bringen, sodass das dann auch leserlich ist und gut mit Abschnitten unterteilt ist. Und wir können mal überlegen, ob wir künftig in Transkripten vielleicht auch ein bisschen Emotionen mit einbauen. Ich weiß es noch nicht. Es scheint auf jeden Fall für Menschen relevant zu sein.

Nächste Folge: erscheint bestimmt (01:03:49)

Helena: Ja, ja, und unsere nächste Folge erscheint bestimmt. Und ich hoffe, heute nach der Aufnahme entscheidet sich dann auch das Thema.

Janine: Ja, aber wir versprechen jetzt an dieser Stelle erst mal noch nichts. Es ist ja auch ein bisschen Sommer, deswegen erscheint diese Folge hier auch etwas außerhalb des Rhythmus, wie ihr vielleicht festgestellt habt, aber der Sommer ist eben der Sommer. Und wenn wir nicht gleichzeitig Urlaub machen, dann verteilt sich das ganz gut.

Helena: Ja.

Call to Action (01:04:20)

Janine: Wenn ihr die nächste Folge nicht verpassen möchtet, folgt uns doch auf mastodon unter at datenleben at podcasts.social oder auf Twitter unter at datenleben. Besucht gerne unsere Webseite www.datenleben.de und hinterlasst uns da auch gerne Feedback. Darüber freuen wir uns, auch wenn es nur ein Chat-GPT-Spam-Feedback ist, das sehr lustig war. Ja, ihr könnt uns als Data Scientist auch buchen für Analysen oder Projekte. Und falls ihr irgendwelche Fragen habt oder Themen, die euch interessieren und ihr uns die vorschlagen möchtet, dann schreibt uns.

Helena: Dann bleibt mir nur noch, für eure Aufmerksamkeit zu danken und bis zum nächsten Mal.

Outro (01:05:05)


Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert