Diversität im Kontext von KI-Modellen ist ein Dauerbrenner und oftmals entscheidend, um die gesellschaftlichen Auswirkungen der Technologie besser zu verstehen. In dieser Erlesenes-Ausgabe haben wir daher einige Artikel zu genau diesem Thema: Eine Studie beschäftigt sich mit dem „Gender Venture Capital Gap“, während gleich zwei Sprachmodelle zeigen, wie die Forderung nach diversen Trainingsdaten in die Praxis umgesetzt werden kann. Besonders diese Beispiele – also wie Sprachmodelle stärker unsere gesellschaftliche Vielfältigkeit widerspiegeln können – machen Hoffnung, dass der Ruf nach Diversität mehr ist als ein frommer Wunsch und konkrete Maßnahmen zu besseren KI-Modellen beitragen.
Viel Spaß beim Lesen wünschen
Teresa und Michael
Die Meinungen in den Beiträgen spiegeln nicht zwangsläufig die Positionen der Bertelsmann Stiftung wider. Wir hoffen jedoch, dass sie zum Nachdenken anregen und zum Diskurs beitragen. Wir freuen uns immer über Feedback – der Newsletter lebt auch von Ihrer Rückmeldung und Ihrem Input. Melden Sie sich per E-Mail an teresa.staiger@bertelsmann-stiftung.de oder bei LinkedIn unter @reframe[Tech] – Algorithmen fürs Gemeinwohl.
This new data poisoning tool lets artists fight back against generative AI, MIT Technology Review, 23.10.2023
Bildgeneratoren wie Midjourney oder Stable Diffusion werden schon länger für Urheberrechtsverletzungen kritisiert: Für ihr Training griffen die Entwicklungsteams auch auf urheberrechtlich geschützte Fotos und Kunst zurück, ohne die Erlaubnis der Urheber:innen einzuholen. Anstatt die Praxis zu verändern, bieten manche Bildgeneratoren Künstler:innen die Option an, ihre Werke aus dem Training zu entfernen. Das geht vielen nicht weit genug. US-Forscher:innen haben nun im Rahmen einer Studie ein Werkzeug entwickelt, mit dem sich Rechteinhaber:innen zur Wehr setzen können: Nightshade. Dort hochgeladene Bilder werden visuell nicht merklich verändert, um sie für das Training von Bildgeneratoren schädlich zu machen. Mit nur 300 manipulierten Bildern konnten die Forscher:innen einen Bildgenerator so stark „vergiften“, dass bei dem Prompt „Auto“ eine Kuh generiert wurde. Illustratorin Eva Toorenent will Nightshade nutzen und hofft, dass KI-Unternehmen nun zögern werden, ihre Werke ohne ihre Erlaubnis zu verwenden, wenn ihre Modelle sonst so fehleranfällig werden.
Diverse Trainingsdaten für ein diverseres Sprachmodell
The Black GPT: Introducing The AI Model Trained With Diversity And Inclusivity In Mind, POCIT, 20.10.2023
Große Sprachmodelle wie Llama-2 oder GPT-4 werden immer wieder dafür kritisiert, verzerrte Antworten zu produzieren. Eine Ursache dafür seien die Trainingsdaten, die nicht divers genug sind. Eine Gruppe US-amerikanischer Unternehmer:innen und Forscher:innen möchte das anders machen: Sie haben daher ein neues Sprachmodell trainiert, das bewusst diversere Trainingsdaten verwendet: Latimer. Im Gegensatz zu anderen Modellen wurden hier auch Texte aus üblicherweise weniger stark vertretenen Kulturen, mündlichen Überlieferungen und lokalen Archiven einbezogen. Dazu gehören beispielsweise indigene Volkserzählungen und mündliche Überlieferungen diverser Communities aus verschiedenen Teilen der Welt. Weiterhin verpflichten sich die Entwickler:innen, den Trainingsprozess transparent zu gestalten. Ziel ist es, ein breiteres Publikum anzusprechen, als es die bisherigen Modelle leisten.
Frauen profitieren nicht vom KI-Hype
Rebalancing Innovation: Women, AI and Venture Capital in the UK, Alan Turing Institute, 4.10.2023
Die Investitionen in den KI-Sektor steigen und auch der mögliche Profit, der damit gewonnen werden kann. Doch wer profitiert davon am meisten? Forscherinnen des Alan Turing Instituts haben sich genauer angeschaut, wer im Vereinigten Königreich Wagniskapital für KI-Start-Ups gewinnen kann. Das Ergebnis ist leider sehr eindeutig: Von Frauen geführte KI-Unternehmen stehen für nur 3 Prozent der finanzierten Start-ups und ihr gehobenes Kapital ist im Schnitt sechs Mal kleiner, als dies bei Männern der Fall ist. Teams, die nur weibliche Mitglieder haben, konnten sogar nur 0,3 Prozent der Gelder gewinnen – auf reine Männerteams fallen hingegen 80 Prozent des Kapitals. Wenig überraschend ist da, dass auch die Wagniskapitalfirmen, die die Gelder bereitstellen, zu 95 Prozent von Männern dominiert sind. Dabei wäre die Finanzierung diverserer KI-Unternehmen ein Hebel, um bessere und weniger diskriminierende KI-Anwendungen zu entwickeln. Kalifornien möchte diesem Problem begegnen: Laut einem neuen Gesetz müssen Wagniskapitalfirmen dort nun veröffentlichen, wie divers die Unternehmen sind, in die sie investieren.
Sprachmodelle verarbeiten jetzt auch arabische Dialekte
Researchers develop AI solutions for inclusion of Arabic and its dialects in Natural Language Processing, Tech Explore, 5.10.2023
Die großen bekannten Sprachmodelle wurden vor allem mit englischsprachigen Texten trainiert, teilweise auch mit anderen Sprachen, die das lateinische Alphabet verwenden. Probleme haben diese Modelle hingegen mit anderen Schriften und Sprachen wie etwa dem Arabischen: Dessen Rechts-nach-Links-Schrift und die sogenannten diakritischen Zeichen, die von Computern nicht so einfach erkannt werden, stellen eine Herausforderung dar. Forscher:innen der Universität in Sharjah in den Vereinigten Arabischen Emiraten nehmen sich dieser Herausforderung an. Sie entwickelten ein Sprachmodell, das Texte in fünf großen arabischen Dialekten verarbeiten und generieren kann. Bisherige ähnliche Anwendungen konnten nur mit dem schriftlichen Standardarabisch arbeiten und waren damit für Sprecher:innen der Dialekte weniger zugänglich. Das Basismodell soll als Grundlage für verschiedene Anwendungen dienen, wie etwa Übersetzungssoftware oder Chatbots.
Bald die bessere KI-Depressionserkennung?
Measuring Mood Through Artificial Intelligence, Psychology Today, 23.10.2023
KI-Systeme werden schon länger dafür verwendet, bei der Diagnose physischer Krankheiten wie z.B. Lungenkrebs zu unterstützen. KI-Systeme kommen mit der Diagnostik im Bereich der psychischen Gesundheit weniger gut klar: Anwendungen, die angeben, in Sprache Depressionen erkennen zu können, sind fehleranfällig, simplifizieren Diagnosen und liefern verzerrte Ergebnisse. Möglicherweise bietet die Kombination von Psychologie mit Neurowissenschaften nun die Chance auf bessere Ergebnisse. Aktuelle Forschung weise dabei darauf hin, dass sich psychische Erkrankungen in veränderter Hirnaktivität widerspiegelt. Die Analyse klinischer Gehirndaten ist allerdings aufwendig. Auf diesen Daten wurden daher verschiedene KI-Modelle trainiert, um Krankheitsbilder schnell zuzuordnen. Auch in der späteren Therapie sollen die Modelle helfen, Dosierung von Medikamenten zu optimieren. Doch noch steht die Forschung hier am Anfang und braucht mehr Zusammenarbeit zwischen Psycholog:innen, Entwickler:innen, Neurowissenschaftler:innen und Bioethiker:innen.
Follow-Empfehlung: Judy Wajcman
Judy Wajcman ist Professorin am britischen Alan Turing Institute und Principal Investigator zum Thema Frauen in Data Science und KI.
Verlesenes: Die ganz spezielle Relativitätstheorie von AI-nstein
Die Kurzzusammenfassungen der Artikel sind unter einer Creative Commons Namensnennung 4.0 International Lizenz.
Kommentar schreiben