Künstliche Intelligenz trifft Zeitzeugeninterviews

Joachim Köhler

Leonie Meyer

16.01.2023 / 5 Minuten zu lesen

KI, Zeitzeugen und Emotionen – was das mit einem Forschungsprojekt des Fraunhofer-Instituts IAIs und der Stiftung Haus der Geschichte zu tun hat, erzählt Joachim Köhler im Interview.

KI-Software kommt häufig zum Einsatz für die Spracherkennung und das Sprachverstehen. Die Software des Forschungsprojekts "Multimodales Mining von Zeitzeugeninterviews zur Erschließung von audiovisuellem Kulturgut" kann Emotionen in Sound und Mimik erkennen. (© Pawel Czerwinski www.unsplash.com )

Was hat das Forschungsprojekt "Multimodales Mining von Zeitzeugeninterviews zur Erschließung von audiovisuellem Kulturgut" untersucht?

Joachim Köhler: Das Projekt hatte zum Ziel, die Zeitzeugeninterviews des Hauses der Geschichte in Bonn besser zu erschließen – sowohl auf der Transkriptionsebene als auch hinsichtlich des Zugangs zu den Interviews. In dem Archiv stehen so viele audiovisuelle Inhalte bereit, dass man in der Informationsflut quasi ertrinkt. Hier arbeiten wir mit der Technik des Audio-Minings, die wir am Fraunhofer IAIS schon eine ganze Weile entwickeln und beispielsweise auch in einer Zusammenarbeit mit der ARD einsetzen.

Über das Forschungsprojekt

Das Projekt "Externer Link: Multimodales Mining von Zeitzeuginterviews zur Erschließung von audiovisuellem Kulturgut" ist ein gemeinsames Forschungsprojekt des Externer Link: Fraunhofer IAIS und der Externer Link: Stiftung Haus der Geschichte. Durch maschinelles Lernen wurde ein Tool erarbeitet, welches das Filtern der Zeitzeugeninterviews nach Emotionen auf dem Zeitzeugenportal des Hauses der Geschichte ermöglicht. Das Projekt lief von Oktober 2020 bis September 2022.

Das Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS ist ein Wissenschaftsinstitut, das sich mit Künstlicher Intelligenz, Maschinellem Lernen und Big Data auseinandersetzt. Seit 2014 koordiniert das Fraunhofer IAIS das Forschungsnetzwerk Fraunhofer-Allianz Big Data und Künstliche Intelligenz.

Wir hatten die Idee, dass Emotionalität gerade jungen Menschen einen guten Zugang zu Geschichte, Authentizität und Glaubhaftigkeit vermitteln kann. Es ist einfach etwas anderes, O-Töne von Betroffenen zu hören, als ein Geschichtsbuch zu lesen. Gerade wenn Menschen in Interviewsituationen sind, zum Beispiel in Interviews zum Fall der Mauer oder in Fluchtsituationen, berichten sie sehr emotional. Deswegen haben wir im Projekt untersucht, wie sich Emotionen als Metadaten erkennen lassen.

Welche Rolle hat KI in dieser Forschung gespielt?

Joachim Köhler: Paradedisziplinen von Künstlicher Intelligenz sind die Spracherkennung und das Sprachverstehen. Die KI erkennt in unstrukturierten Daten zum Beispiel Stimmen oder Sprecherinnen und Sprecher und klassifiziert Texte. Als wir mit dem Projekt begonnen haben, war der Ausgangspunkt die Transkription und Verschriftlichung von Interviews – damals waren Transkriptions-Softwares noch nicht so allgegenwärtig wie heute.

Interviewpartner Joachim Köhler (© Fraunhofer IAIS)

Wir haben bei den riesigen Mengen an Interviews angesetzt und geschaut: Wo lassen sich Emotionen erkennen? Und welche Emotionen sind das? Für die Qualifizierung der Emotionen, eine typische Mustererkennung, brauchten wir die KI. Man nennt das auch "Deep Learning": Die KI lernt mit Beispielen neuronaler Netzarchitekturen und Parameter. Nach einer Trainingsphase soll sie dann in der Lage sein, die verschiedenen Emotionen automatisiert zu erkennen.

Gab es in diesem Prozess auch Herausforderungen?

Joachim Köhler: Es gab Emotionen, die sich einfacher erkennen ließen als andere. Beispielsweise ließ sich die Freude deutlich besser erkennen als die Ärger. Teilweise waren auch Differenzierungen von zwei ähnlichen Emotionen, zum Beispiel von Ärger und Trauer, gar nicht so leicht. Für andere lagen uns wiederum keine ausreichende Anzahl von Trainingsdaten vor.

Wie wurden die Emotionen in den Interviews mit Zeitzeuginnen und Zeitzeugen erfasst?

Joachim Köhler: Wir haben verschiedene Ansätze verfolgt: Sentiment-, Intonations- und Mimik-Analyse. Bei der Sentiment-Analyse wurden Texte hinsichtlich ihrer Stimmung maschinell ausgewertet. Wenn eine Person sagt, dass sie nach einem Ereignis traurig war, dann kann man sich gut vorstellen, dass sie wahrscheinlich wirklich traurig war. Der zweite Ansatz ist die Intonation: Verändert sich die Stimmlage, geht die Person mit der Stimme rauf oder runter? Oder spricht sie plötzlich langsam und bedächtig? Dann ist sie wahrscheinlich eher nachdenklich oder traurig. Sind Freudenschreie oder Lacher zu hören? Dann ist die Emotion vermutlich Freude.

Man kann also anhand der Stimme Emotionen erkennen, aber auch anhand von Mimik. Hier wurde mittels Deep-Learning-Modellen aus emotionalen Gesichtsbildern trainiert. Diese Modelle unterscheiden sich von den bisherigen, händisch ausgewählten Merkmalen. Man spricht hier auch von "Representation-based Lernverfahren".

Wir haben alle drei Modi separat voneinander untersucht. Die Sentimentanalyse hat von Anfang an gut funktioniert: Anhand von Worthäufigkeiten konnten wir die Emotionen gut erfassen. Die Untersuchung der Stimme bei der Intonation war eher herausfordernd, und die Erkennung durch das Gesicht klappte wieder ganz gut. Wir haben uns schließlich für eine multimodale Analyse entschieden, also eine Kombination der drei Verfahren zur Untersuchung der Text- und Videostämme.

Welchen Mehrwert hat es, Interviews nach Emotionen zu filtern?

Joachim Köhler: Für die Wissenschaftlerinnen und Wissenschaftler vom Haus der Geschichte, die Ausstellungen kuratieren, ist es eine Art Profi-Werkzeug, um Inhalte aus Zeitzeugeninterviews zu recherchieren. Für Laien ist das schon herausfordernder, denn für sie muss das Tool selbsterklärend sein. Testeinsätze unseres Systems haben gezeigt, dass es nicht so einfach wäre, das Tool den Museumsbesucherinnen und -besuchern nahe zu bringen.

Trotzdem finde ich, dass der Ansatz, Geschichte über Emotionen zu kommunizieren, ein interessanter ist. Und man muss bedenken: Es war in erster Linie ein Forschungsprojekt. Das Haus der Geschichte überarbeitet aktuell seine Dauerausstellung, und damit einher geht natürlich die Frage, wie sich historische Inhalte heute vermitteln lassen. Emotionen können dabei eine Rolle spielen. Ob dieses experimentelle Projekt aber wirklich Einzug in das Besucherprogramm des Hauses der Geschichte findet, kann ich nicht sagen.

Gab es während des Projekts auch Bedenken, Emotionalität so prominent in der Erinnerungsarbeit zu verankern?

Joachim Köhler: Ja, Bedenken gab es. Um dies zu bewerten, ist aber vor allem museumspädagogische Expertise gefragt. Wir haben seitens des Fraunhofer IAIS erstmal geschaut, ob sich die Emotionserkennung technisch überhaupt auf einem gewissen Qualitätslevel umsetzen lässt. Und ein weiterer Schwerpunkt war es, die Datenmengen der Interviews in den Griff zu bekommen und auszuwerten.

Das Projekt wurde zu Ende September beendet – gibt es schon ein Fazit?

Joachim Köhler: Wir haben erste Schritte mit der Emotionserkennung erreicht und konnten dem Haus der Geschichte diverse technische Komponenten bereitstellen. Man muss aber auch sagen, dass sie jetzt noch nicht direkt im Einsatz sind. Was schon verwendet wird, ist unser Audio-Mining-System, das Interviews qualitativ transkribiert. Hinsichtlich der Emotionserkennung muss man vermutlich erst noch einmal genauer verifizieren, ob die Grundannahme zutrifft, dass Emotionen einen guten und interessanten Zugang zu Geschichtsinhalten bieten.

An welcher Stelle wäre der Einsatz von KI im Zusammenhang mit Zeitzeugenschaft oder Geschichtsvermittlung noch möglich?

Joachim Köhler: Wir hatten kürzlich noch ein anderes Projekt zum Thema Erschließung von Zeitzeugeninterviews mit dem Lehrstuhl für Oral History an der Fernuniversität Hagen. In dem vom BMBF geförderten Projekt KA3 wurden Sprachmodelle für Zeitzeugeninterviews optimiert, so dass die Spracherkennung die oftmals akustisch anspruchsvollen Interviews mit einer hohen Transkriptionsgenauigkeit verschriftet und dadurch den Erschließungsprozess deutlich vereinfacht hat. Die Interviews in Hagen dauern zum Teil mehr als vier Stunden. Sie manuell zu transkribieren wäre eine Heidenarbeit. Das geht mit technischer Unterstützung deutlich effizienter. Die Technik erleichtert zudem die Navigation in den Interviews, also das gezielte Hineinspringen ins Audiomaterial zum jeweils gesuchten Abschnitt.

Anhand von Stimmenprofilen kann man verschiedene Phänomene prüfen, etwa wenn eine Sprecherin ins Stocken gerät oder zögert. Das sind dann Hinweise, dass Menschen unsicher sind oder zu bestimmten Wendepunkten in ihrer Erzählung kommen. Auch das Thema Textanalyse bietet weitere spannende Forschungsmöglichkeiten. Worüber reden die Zeitzeugen? Welche Themengebiete adressieren sie, und wie bringt man das in den Kontext anderer Geschichtsquellen? Das ist vor allem für diejenigen relevant, die zu Oral History forschen und versuchen, Geschichte zu verstehen, Aussagen zu bewerten und diese in einen Kontext zu setzen.

Wichtig ist hierbei auch, dass man ein System vor Ort installiert, da viele Zeitzeuginnen und Zeitzeugen nicht wollen, dass ihre Daten über eine Cloud irgendwo in der Welt verarbeitet werden.

Das Interview führte Leonie Meyer.

als Bürger/-in

auf Social Media

vor Ort

als Journalist/-in