Jeder kennt sie: KI-basierte Sprachassistenzsysteme. Die meisten dieser Systeme – wie Amazon Alexa, Cortana und Siri – werden von Tech-Giganten entwickelt und stehen häufiger in der Kritik, Vorurteile zu befördern. Zwei „The New New“-Projekte haben sich nun der Herausforderung angenommen und erforschen, wie mithilfe synthetischer Stimmen und queerer Interfaces diese binäre Weltsicht um inklusive Perspektiven bereichert werden kann. Darüber haben Julia Kloiber und Markus Overdiek mit den Fellows von „[multi’vocal]“ und „Syb – Queering voice AI“ gesprochen.

Unsere erste Frage ist die schwierigste: Frederik und Stina, wie würdet ihr euer Projekt „[multi’vocal]“ Menschen beschreiben, die bisher kaum mit synthetischen Stimmen in Berührung gekommen sind?

Frederik ([multi’vocal]): „[multi’vocal] ist ein laufendes Kunst- und Forschungsprojekt. Das Ziel ist es, die politischen Dimensionen und Ästhetik von synthetischer Sprache zu erforschen und zu hinterfragen. Ebenso betrachten wir, wie sich die klanglichen Qualitäten von synthetischer Sprache zu Fragen des Alters, des Geschlechts und der geografischen Herkunft verhalten.

Stina ([multi’vocal]): Wir befassen uns auch mit der sogenannten Parasprache – also mit jenen klanglichen Qualitäten, die sich nicht darauf konzentrieren was gesagt wird, sondern eher darauf, wie die Worte gesprochen werden.

Nicht jede:r weiß, was synthetische Sprache ist. Könnt ihr uns das anhand eines Beispiels greifbar machen?

Frederik ([multi’vocal]): Synthetische Sprache ist Sprache, die noch nicht aufgezeichnet wurde. Wir beginnen mit einer Texteingabe, aus der man Audiospuren generieren kann – meistens mithilfe von tiefen neuronalen Netzen. Oft ist es so, dass synthetische Sprachmodelle auf Grundlage einer großen Anzahl von Aufnahmen einzelner Sprecher:innen trainiert werden, um etwas zu erzeugen, das Stimmen von Sprecher:innen ähnelt.

Unser Ansatz ist insofern anders, als dass wir ständig neue Sprecher:innen in den Prozess integrieren – und so den Algorithmus auf die Probe stellen, da wir ständig neue Sichtweisen für bestimmte Zeichenfolgen oder Sätze präsentieren.

Was hat euch motiviert, „[multi’vocal]“ zu starten?

Stina ([multi’vocal]): Uns haben Siri, Alexa und Cortana zum Nachdenken gebracht: All diese Systeme erhalten Namen mit weiblichen Identitäten. Die Darstellung solcher Stimmen ist stark von binären Vorstellungen geprägt. Das hat uns neugierig gemacht, herauszufinden, warum das so ist – und dann zu untersuchen, ob es dazu auch eine Alternative gibt.

Cami und Andrew, wie würdet ihr „Syb – Queering voice AI“ beschreiben?

Andrew (Syb – Queering voice AI):Syb – Queering voice AI“ ist eine Sprachschnittstelle, mit der eine Unterhaltung möglich ist. Diese ist von und für Trans*personen entwickelt und empfiehlt Medieninhalte, die aus der Community erstellt wurden. In unserem ersten Workshop für „Syb – Queering voice AI“ wurde uns klar, dass wir etwas Positives in den Mittelpunkt stellen wollen. Denn allzu oft neigen Diskurse und Gespräche über Trans*personen dazu, ausschließlich Traumata in den Mittelpunkt zu stellen – insbesondere in den Massenmedien.

Cami (Syb – Queering voice AI): Es geht uns darum, das Wohlbefinden von Trans*personen in den Mittelpunkt zu stellen. Und nicht nur das: Unser Projekt ist auch ein Anwendungsfall dafür, wie strukturelle Ungleichgewichte und Ungerechtigkeiten, die Trans*personen erfahren, adressiert werden können.

Könnt ihr uns mehr über darüber erzählen, wie ihr „Syb – Queering voice AI“ gestartet habt und wer an euren Workshops teilnimmt?

Cami (Syb – Queering voice AI): Die Workshops bauen auf Forschung auf, die ich für meine Masterarbeit durchgeführt habe und nun unter dem Titel „Speaking from experience, trans and non-binary requirements from voice activated AI“ veröffentlicht ist. Durch Recherchen und Interviews fand ich heraus, dass die wichtigsten Bedürfnisse der von mir befragten Trans*personen neben Repräsentation in der Gesellschaft mit Themen wie Überwachung, Kapitalismus und Privatsphäre zu tun haben.

Andrew (Syb – Queering voice AI): Die von uns durchgeführte Workshopwoche am Creative Computing Institute in London war wahrscheinlich eine der intensivsten in meinem Leben. Es war sehr bereichernd, einen Raum zu schaffen, der sich auf die Bedürfnisse von Trans*personen konzentriert.

Cami (Syb – Queering voice AI): Zudem haben wir eine transsexuelle Designerin konsultiert und gemeinsam mit ihr Personas für die Workshops entwickelt – im Gegensatz zu ähnlichen Angeboten aus dem Mainstream, die zwar inklusiv sein wollen, aber dann doch in den meisten Fällen auf Ansichten von Cisgender basieren – also auf jenen Ansichten von Menschen, die sich mit dem ihnen zugeschriebenen Geschlecht identifizieren.

Frederik und Stina, wie geht ihr bei „[multi’vocal]“ vor?

Frederik ([multi’vocal]): Wir sind fünf Leute in unserem Kollektiv, die einen interdisziplinären Hintergrund haben. Unsere erste und vielleicht auch die idealistischste Idee besteht darin, eine künstliche bzw. synthetische Stimme herzustellen. Wir dachten uns: Wie knifflig kann das eigentlich sein? Es hat sich herausgestellt: Das kann sehr knifflig sein. Wie wir Technologie begegnen, ist immer kontextabhängig und die Arbeit an „[multi’vocal]“ hat unser Bewusstsein dafür geschärft, inwieweit wir regelrechte „Konsument:innen von Stimmen“ sind.

Stina ([multi’vocal]: Viele synthetische Stimmen basieren auf Aufzeichnungen von Sprecher:innen, die in einer geschlossenen Umgebung aufgenommen sind. Wir haben stattdessen Stimmen auf Festivals gesammelt, da wir dort Zugang zu vielen verschiedenen Akzenten und Altersgruppen hatten. Wir haben zudem ein Papier über die von uns verwendeten Methoden geschrieben, in dem auch Verzerrungen bei synthetischen Stimmen thematisiert werden, denn diese Stimmen werden aufgrund von Ähnlichkeiten trainiert. Von der Methodik ausgehend war es dann für uns wichtig, eine auf Open SourceOpen Source Ein Entwicklungsmodell, bei dem der Quellcode eines Programms öffentlich zugänglich ist. Jeder kann den Code einsehen, modifizieren und weiterverbreiten. Open Source kann die Transparenz von Forschungsfeldern wie der KI fördern. basierende Alternative für synthetische Stimmen zu den vorherrschenden Angeboten der großen Tech-Unternehmen aufzuzeigen. Das „The New New-Fellowship bietet dazu tolle Möglichkeiten und der Austausch mit den anderen Fellowship-Projekten gibt uns viel Inspiration für unsere eigene Arbeit.


Dieses Gespräch ist Teil einer Interviewreihe im Rahmen des TheNewNew-Fellowships, das auf Initiative der Bertelsmann Stiftung und des gemeinnützigen Superrr Lab in Kooperation mit der Allianz Kulturstiftung und dem Goethe-Institut erfolgt.

Auf diesem Blog werden einige Beiträge der Interviewreihe auf Deutsch veröffentlicht. Alle Interviews sind in englischer Sprache auf dem TheNewNew-Blog zu finden.

Dieses Interview wurde von Markus Overdiek übersetzt und gekürzt.


Dieser Text ist lizenziert unter einer Creative Commons Namensnennung 4.0 International Lizenz.