Basismodelle dienen als Fundament für viele verschiedene KI-Anwendungen, sei es für Chatbots, Übersetzungs- oder Bildtools. Sie können wichtige und sinnvolle (Arbeits-)Werkzeuge sein und haben in den letzten Jahren eine zentrale Rolle eingenommen. Obwohl die Systeme immer relevanter sind, besteht nach wie vor viel Intransparenz über ihre Funktionsweise und ihre Schattenseiten. Aus diesem Grund bietet diese Seite einen Überblick über das Ökosystem von KI-Basismodellen und weist auf zentrale Punkte und Herausforderungen bei ihrer Entwicklung und ihrem Einsatz hin.

Im Folgenden werden die Modelle und ihre Funktionsweisen sowie Probleme, die mit ihrer Entwicklung und ihrem Einsatz einhergehen, erklärt, um eine Übersicht über das Ökosystem „Basismodelle“ zu bieten.

Für einen detaillierte Betrachtung der Beschaffenheit von Basismodellen bietet diese Seite außerdem einen exemplarischen Vergleich von sieben konkreten Basismodellen, sei es von Modellarchitektur und Größe, Trainingsdaten, Ressourcenverbrauch, Datenschutz und weiteren Kategorien.

Zum exemplarischen Vergleich

Die Entwicklung von KI-Basismodellen lässt sich wie ein komplexes Ökosystem verstehen, in dem alle Ebenen eng miteinander verbunden sind und wie in der Natur aufeinander aufbauen:

  • Trainingsdaten bilden den „Nährboden“ – wie Mikroorganismen bereiten sie den Boden.
  • Basismodelle wurzeln in diesen Daten und erkennen Muster.
  • Daraus „wachsen“ vielfältige Anwendungen, wie Chatbots oder Übersetzungstools, ähnlich wie Bäume.

Dieses Bild des Ökosystems zeigt, dass jede Schicht – von den Trainingsdaten über die Basismodelle bis hin zu den Anwendungen – eine zentrale Rolle spielt und voneinander abhängig ist. Nur ein vielfältiger, gut kuratierter Nährboden ermöglicht ein starkes, fair verwurzeltes KI-Ökosystem, das positive Auswirkungen auf die Gesellschaft hat und möglichst viele Perspektiven berücksichtigt.

Die Entwicklung von KI-Basismodellen lässt sich wie ein komplexes Ökosystem verstehen, in dem alle Ebenen eng miteinander verbunden sind. Am Fundament dieses Systems stehen die Trainingsdaten, die man sich wie Mikroorganismen vorstellen kann, die in ihrer Summe als „Nährboden“ dienen und den Boden für KI-Modelle bereiten. Diese Daten werden oft durch automatisierte Prozesse wie Web Scraping aus riesigen Mengen an Onlineinformationen zusammengetragen. Sie dienen den Modellen als Datenquelle, die sie benötigen, um Muster zu erkennen und Aufgaben zu erfüllen.

Auf diesen Daten wurzeln die Basismodelle. Sie bilden die Grundlage und „Wurzeln“ für eine Vielzahl von Anwendungen, wie zum Beispiel Chatbots, Übersetzungstools oder Textgeneratoren. Diese Anwendungen sind die „Bäume“, die aus den Basismodellen hervorgehen und in unterschiedlichen Bereichen wachsen und gedeihen können.

Foundation Models, auf Deutsch auch „Basismodelle“ oder „Grundlagenmodelle“ bezeichnet, bilden das Fundament für zahlreiche KI-Anwendungen.

Basismodelle sind große KI-Modelle, die auf umfangreichen Datensätzen trainiert werden und verschiedene Aufgaben erledigen können, ohne für jede Aufgabe speziell programmiert zu werden. Anders als bei Systemen, denen Regeln explizit vorgegeben werden, „lernen“ Basismodelle diese Regeln selbstständig aus den Trainingsdaten. Dazu werden sie mit riesigen Mengen an Informationen aus dem Internet, Büchern und anderen Quellen „gefüttert“ und erkennen auf dieser Grundlage Muster und Zusammenhänge, anhand derer sie „neuen“ Output generieren bzw. erstellen können, sei es Texte oder Bilder (siehe Sprachmodell oder Bildmodell).

Wichtigste Merkmale:

  • Größe: Sie bestehen oft aus Milliarden von Parametern, die die Mustererkennung und Vorhersagen des Modells ermöglichen.
  • Vielseitigkeit: Ein einzelnes Modell kann für verschiedene Aufgaben eingesetzt werden.
  • Transfer Learning: Das Gelernte lässt sich auf neue, unbekannte Aufgaben übertragen.
  • Selbstüberwachtes Lernen: Sie lernen oft ohne menschliche Annotation der Trainingsdaten, also ohne zusätzliche Kennzeichnungen der Trainingsdaten, die ihnen die Bedeutung der Daten „erklären“ würden.

Funktionsweise

Zunächst sammeln Entwickler:innen bzw. Unternehmen enorme Mengen diverser Daten, dies können zum Beispiel Millionen von Texten aus dem Internet, Büchern und Artikeln sein.

In dieser Phase „lernt“ das Modell grundlegende Muster und Zusammenhänge. Ein Sprachmodell erfasst beispielsweise Sprachstrukturen und kontextuelle Bedeutungen, die in vielen verschiedenen Zusammenhängen nützlich sein können.

Bei diesem Schritt wird das Modell darauf trainiert, wesentliche Informationen aus Eingabedaten zu filtern. Bei einem Satz wie „Der alte Hund spielte fröhlich im sonnigen Park“ werden zum Beispiel Kernelemente wie Subjekt, Handlung und Kontext identifiziert.

Abschließend wird das vortrainierte Modell für spezifische Anwendungen optimiert. Ein allgemeines Sprachmodell könnte beispielsweise mit Organisationsdokumenten spezialisiert werden, um die Fachsprache zu erlernen und in einem Chatbot eingesetzt zu werden, der kontextbezogene Antworten auf organisationsspezifische Anfragen liefern kann.

Anwendungsbereiche

Grundlagenmodelle finden in zahlreichen Bereichen Anwendung:

Textgenerierung, Übersetzung, Sentimentanalyse, also das automatische Erkennen von Stimmungen und Meinungen. Diese Modelle nennt man auch Sprachmodelle

Bilderkennung, Objektdetektion, Bildsegmentierung, also die Unterteilung eines Bildes in relevante Bereiche oder Objekte. Diese Modelle nennt man auch Bildmodelle

Text-zu-Bild-Generierung, visuelle Frage-Antwort-Systeme. Siehe Multimodale Modelle

Transformer sind wie das „Gehirn“ der bisher beschriebenen Modelle und bilden die Architektur für neuronale Netze. Sie ermöglichen den Modellen, wichtige Informationen und Muster zu erkennen und miteinander zu verknüpfen.
Transformer werden für viele KI-Modelle verwendet, von Sprachverarbeitung bis hin zur Bildanalyse.

Kernkonzept

Transformer basieren auf dem Prinzip der „Selbstaufmerksamkeit“ (Self-Attention), um Zusammenhänge in Daten zu erkennen. Ähnlich wie ein Mensch beim Lesen wichtige Wörter besonders beachtet, kann ein Transformer die Bedeutung einzelner Elemente im Kontext des Ganzen „verstehen“.
So können sie die Bedeutung eines Elements (z. B. ein Wort oder ein Bildteil) im Kontext aller anderen Elemente verstehen.
Dies geschieht durch einen Mechanismus, indem das Modell seine Aufmerksamkeit gezielt auf die relevantesten Teile der Eingabe richtet.

Wie funktioniert das?

  • Das Modell analysiert jedes Element (z. B. ein Wort) in Beziehung zu allen anderen Elementen.
  • Dabei gewichtet es, wie wichtig die anderen Elemente für das Verständnis sind.
  • So entstehen Verknüpfungen zwischen zusammenhängenden Elementen.

Ein Beispiel: Im Satz „Der Hund, der die Katze jagte, war groß“ erkennt das Modell:

  • „war“ gehört stark zu „Hund“ (Wer war etwas? → der Hund)
  • „war“ gehört auch zu „groß“ (Was war der Hund? → groß)
  • Die Information über die Katze ist für „war“ weniger wichtig

Durch diese Verknüpfungen „versteht“ das Modell den Zusammenhang: Es geht um einen großen Hund.
Dieser Prozess wird für jedes Element im Text wiederholt, sodass das Modell die Bedeutung des gesamten Textes erfassen kann.

Trainingsdaten bilden den „Nährboden“ für Basismodelle – ähnlich wie Mikroorganismen den Boden für Pflanzen bereiten. Diese Daten sind die Grundlage, aus der die Modelle Muster erkennen und lernen, Aufgaben wie Textgenerierung zu bewältigen. Die Beschaffung dieser Daten erfolgt häufig durch Web Scraping, also das automatisierte Sammeln von Informationen aus dem Internet. Der Umfang ist dabei enorm: Eines der größten Trainingsdatensets umfasst Material von 15 Millionen verschiedenen Web-Adressen.
Diese Praxis wirft jedoch rechtliche und ethische Fragen auf: Viele der genutzten Quellen sind urheberrechtlich geschützt. Ein aktuelles Beispiel ist die Klage der „New York Times“ gegen OpenAI und Microsoft wegen der unautorisierten Nutzung ihrer Inhalte zum Training von KI-Modellen. Auch verzerrte Datensätze, die zu problematischen Ergebnissen führen können, spielen eine zentrale Rolle. Mehr dazu im Kapitel “Übersehene Probleme”.


Multimodale Modelle sind Systeme, die gleichzeitig auf visuelle, sprachliche und akustische Signale reagieren können. Sie „verstehen“, verarbeiten und kombinieren verschiedene Arten von Informationen, wie etwa Text, Bild und Ton.

Deshalb stellen multimodale Modelle einen weiteren Fortschritt in der Entwicklung von KI-Systemen dar, indem sie die Fähigkeiten von spezialisierten Modellen wie Sprachmodellen und Bildmodellen kombinieren.

Kernkonzept

Der zentrale Aspekt multimodaler Modelle liegt in ihrer Fähigkeit, unterschiedliche Datentypen wie Texte, Bilder, Audio und Video zu erfassen und zu interpretieren. Dies ermöglicht ein ganzheitliches und kontextreicheres Verständnis von Inhalten, das über die Möglichkeiten einzelner, spezialisierter Modelle hinausgeht.

Funktionsweise

Multimodale Modelle nutzen fortschrittliche Architekturen, die angepasst wurden, um verschiedene Eingabetypen zu verarbeiten. Sie „lernen“, wie diese verschiedenen Datenarten zusammenhängen, sodass sie Informationen übergreifend verknüpfen und analysieren können. Dabei nutzen sie die Stärken spezialisierter Modelle und können zusätzlich verschiedene Datentypen miteinander verbinden. Ein Beispiel dafür ist ein Sprachassistent, der gesprochene Sprache (Ton) in Text umwandelt und dann Informationen aus Bildern und Texten kombiniert, um eine passende Antwort zu geben.

Allerdings gelten für multimodale Modelle die gleichen Einschränkungen wie für Sprach- und Bildmodelle. Sie erkennen Muster in den Trainingsdaten und wenden diese an, ohne tatsächlich zu verstehen, was sie verarbeiten. Dies kann zu Verzerrungen oder fehlerhaften Interpretationen führen, besonders wenn die Trainingsdaten unausgewogen oder nicht repräsentativ sind (siehe verzerrte Trainingsdaten)

.

Anwendungsbereiche

Die Einsatzmöglichkeiten für multimodale Modelle sind vielfältig und umfassen:

  • visuelle Frage-Antwort-Systeme, die Textfragen zu Bildern beantworten können
  • Text-zu-Bild-Generierung, bei der aus textuellen Beschreibungen Bilder erzeugt werden
  • Videoanalyse mit Berücksichtigung von Bild, Ton und Untertiteln
  • multimodale Sentimentanalyse, die Text und Sprache kombiniert
  • Robotik, wo verschiedene Sensordaten integriert werden müssen

Bei der Entwicklung und dem Einsatz von KI-Modellen wird oft nur an Bits und Bites gedacht. Doch der Ressourcenverbrauch ist enorm und hat reale Konsequenzen für die Umwelt – seien es der hohe Wasserverbrauch, die Rohmaterialen und die Energie zur Herstellung der Hardware.

Ein paar Zahlen: 

  • Der Betrieb von ChatGPT im März 2024 hat etwa 700.000 Liter Frischwasser und so viel Energie verbraucht wie 180.000 US-Haushalte.
  • Das Erzeugen eines Bildes mit einem Bildmodell verbraucht so viel Energie wie das vollständige Aufladen eines Smartphones.
  • Das Training des Modells BERT erzeugte etwa so viele Emissionen, wie sie fünf Autos über ihren gesamten Produktlebenszyklus erzeugen würden.
  • Ein „Gespräch“ mit ChatGPT erfordert etwa einen halben Liter Wasser.
  • Für die Kühlung der Google-Rechenzentren in den USA wurden 2021 rund 12,7 Milliarden Liter Frischwasser benötigt.

Die Hauptursache für diesen Ressourcenverbrauch liegt in der Größe und Komplexität der Basismodelle: Je größer und komplexer ein Modell, desto mehr Energie, Wasser und Hardware werden benötigt. Gleichzeitig hängt der ökologische Fußabdruck auch sehr davon ab, wie effizient das Training und der Betrieb dieser Modelle gestaltet sind. Neben der Energie und dem Wasser, die für den Betrieb benötigt werden, spielt auch die Produktion der benötigten Hardware eine Rolle. Hier werden seltene Rohstoffe und Metalle verbraucht, deren Abbau und Verarbeitung wiederrum zu Umweltbelastungen- und schäden führen.

Aktuell fehlen jedoch viele konkrete Daten zum Ressourcenverbrauch von KI-Modellen, da Unternehmen oft nicht offenlegen, wie viel Energie oder Wasser in ihren Prozessen verbraucht wird. Auch die Emissionen, die während der Entwicklung entstehen, werden selten genau dokumentiert.

Wie bei den Trainingsdaten zeigt sich auch beim Ressourcenverbrauch, dass es dringend mehr Transparenz braucht. Nur so lassen sich Maßnahmen entwickeln, um die genannten Umweltbelastungen spürbar zu reduzieren – etwa durch kleinere und sparsamere Modelle sowie energieeffizientere Rechenzentren. Auch gesetzliche Vorgaben könnten hier helfen: etwa die Verpflichtung der Unternehmen zur Offenlegung ihres Ressourcenverbrauchs sowie zur energieeffizienteren und ressourcenschonenden Entwicklung und Nutzung von KI-Modellen.

Ausbeutung im Schatten der Automatisierung: die Menschen hinter den Modellen

KI-Modelle erwecken den Eindruck, vollständig automatisierte Anwendungen zu sein, doch in Wirklichkeit sind sie auf die akribische Arbeit von menschlichen Arbeitnehmer:innen angewiesen. Denn das Training von großen KI-Modellen verlangt eine Unmenge menschlicher Arbeit und die hat ihren Preis. Deswegen verlassen sich Technologiefirmen auf günstige Arbeitskräfte in Ländern, in denen Arbeiter:innen kaum vor ausbeuterischen Praktiken geschützt werden. Ihre Aufgaben bestehen darin, Daten zu labeln und KI-Ergebnisse zu überprüfen und zu bewerten. In einer Investigativrecherche wurde aufgedeckt, dass auch OpenAI auf günstige Arbeitskräfte aus dem globalen Süden zurückgreift.

Für die Entwicklung seines textbasierten Chatbots ChatGPT hat das Unternehmen Arbeiter:innen in Kenia eingesetzt, die weniger als 2 US-Dollar pro Stunde verdienten. Ihre Aufgabe war es, besonders gefährliche und schädliche Inhalte herauszufiltern. Sie sahen sich tagtäglich mit detaillierten Beschreibungen von sexuellem Kindesmissbrauch, Mord oder Selbstverletzung konfrontiert. Eine Arbeitskraft beschrieb die traumatischen Arbeitsbedingungen als „Folter“.

KI-Systeme sind zwar technologisch fortschrittlich, aber ohne menschliche Annotationen, also das Markieren und Beschreiben von Daten, wären sie nicht in der Lage, Objekte in der realen Welt zu erkennen. Die Arbeitsteilung ist global: Firmen aus wohlhabenden Ländern wie den USA und Deutschland entwickeln KI-Systeme, während die eigentliche Vorbereitung der Trainingsdaten, also etwa die annotierten Daten, von Menschen in Ländern wie Indien oder Kenia bereitgestellt werden. Diese Arbeitsteilung trägt zu einer wirtschaftlichen Ungleichheit bei: Während die hochqualifizierten und besser entlohnten Tätigkeiten der KI-Entwicklung in wohlhabenden Ländern, meist des Globalen Nordens, angesiedelt sind, wird die zeitintensive und oft geringer bezahlte Aufgabe der Datenannotation und -bereinigung an Menschen in wirtschaftlich schwächere Regionen – meist im Globalen Süden – ausgelagert, die selten von dem technischen Fortschritt, den sie ermöglichen, profitieren.

Die Frage, wie wir faire Arbeit auch beim Training von KI-Systemen sicherstellen, bleibt derzeit offen – es gibt mittlerweile aber erste Proteste und Gegenbewegungen, wie zum Beispiel die Gründung einer Gewerkschaft in Kenia zeigt.

Eine weitere Herausforderung bei der Sammlung von Daten für das Training von Basismodellen ist, dass oftmals bestimmte Quellen überrepräsentiert sind und die Vielfalt von verschiedenen Kulturen, Geschlechtern und sozialen Gruppen nicht angemessen in den Daten abgebildet wird. Einseitige oder unvollständige Datengrundlagen können dann etwa dazu führen, dass im Output von KI-Modelle bestimmte Gruppen oder Perspektiven bevorzugt werden und so die Vielfalt und Komplexität der Gesellschaft nicht angemessen repräsentiert wird oder bestimmte Perspektiven marginalisiert werden. Die zum Training der Basismodelle verwendeten Daten spiegeln überwiegend westliche und patriarchale Perspektiven und Werte wider. Verzerrungen (Biases) sind also vorprogrammiert und unzählige Beispiele zeigen, dass die Modelle bestehende Vorurteile und Stereotypen nicht nur reproduzieren, sondern sogar verstärken: von Fällen geschlechterbasierter Gewalt in generativen KI-Modellen über Geschlechterbias in von Sprachmodellen generierten Empfehlungsschreiben bis hin zu rassistischen Ratschlägen und stereotypen Darstellungen von Ärzt:innen und anderen Berufsgruppen. Auch gibt es Studien, die belegen, dass von KI-Systemen generierte Verzerrungen das Verhalten einer Person nachhaltig beeinflussen können – selbst nachdem sie das Programm nicht mehr nutzt.

Die Beschaffenheit der Trainingsdaten beeinflussen also die Qualität und Fairness des gesamten Basismodell-Ökosystems. Wenn das Fundament eines Hauses schief ist, werden auch die darauf gebauten Wände wackeln. So ist es auch bei KI-Modellen: Wenn die Trainingsdaten bereits Verzerrungen und Fehler enthalten, setzen sich diese in den Anwendungen, die auf diesen Modellen basieren, fort. 

Die meisten KI-Unternehmen dokumentieren nicht, wie sich ihre Trainingsdatensätze konkret zusammensetzen, was zu einer großen Intransparenz führt, da man nicht weiß, welche Daten in den Trainingsdatensätzen stecken und wie sie zusammengestellt wurden. Und es folglich auch für Entwickler:innen, Forscher:innen und andere schwierig ist, Verzerrungen zu adressieren, schädliche Inhalte aus den Daten zu entfernen oder urheberrechtlich geschützte Inhalte zu identifizieren.

Weitere Herausforderungen – und wie sie adressiert werden können

  • Ethik und Fairness: Vorurteile und Ungleichheiten aus den Trainingsdaten können von dem Modell übernommen und verstärkt werden, siehe verzerrte Trainingsdaten. Um sicherzustellen, dass die Modelle fair und transparent eingesetzt werden, sollten wir uns besonders mit Bias, also Vorurteilen, unter anderem in den Daten auseinandersetzen, Fairness fördern und dafür sorgen, dass die Modelle interpretierbar und erklärbar sind.
  • Datenschutz und Sicherheit: Die Verwendung urheberrechtlich geschützter Daten im Training kann rechtliche Probleme verursachen. Beim Training und Einsatz von KI-Modellen wird es wichtig sein, persönliche Daten zu schützen und Techniken zu entwickeln, um Missbrauch zu verhindern.
  • Ressourcenmanagement: Sowohl das Training und als auch der Einsatz erfordern viel Rechenleistung und Energie und belasten dadurch die Umwelt erheblich, siehe Ressourcenverbrauch. Um den hohen Energie- und Rechenbedarf für das Training und Betrieb von KI-Modellen zu bewältigen, müssen Ressourcen schonender eingesetzt werden und umweltfreundlichere Technologien entwickelt werden.
  • Regulierung: Um einen verantwortungsvollen Umgang mit KI zu gewährleisten, müssen rechtliche Rahmenbedingungen an die sich schnell entwickelnden Technologien angepasst und globale Standards für die Entwicklung und den Einsatz von KI etabliert werden – zum Beispiel die Offenlegung von Trainingsdaten und -methoden.
  • Zuverlässigkeit und Robustheit: Man kann sich diese Modelle wie eine Black Box vorstellen: Sie liefern uns zwar Ergebnisse, aber es ist oft nicht nachvollziehbar, wie sie zu diesen gekommen sind. Um das Vertrauen in KI-Systeme zu stärken, sollte daran gearbeitet werden, dass zum einen ihre Ergebnisse konsistenter und zuverlässiger, aber auch ihre Fehlbarkeit deutlich wird. Zum anderen spielt dabei der Aufbau von Kompetenzen im Umgang mit KI eine zentrale Rolle. Dazu sollten Methoden entwickelt werden, um mit Unsicherheiten, zum Beispiel hervorgerufen durch unvollständige Daten und unbekannte Situationen, die nicht den Trainingsdaten angelegt sind, besser umgehen zu können.

Dieser Abschnitt bietet eine exemplarische Übersicht verschiedener Basismodelle, basierend auf zentralen Kriterien:

  1. Ziel der Entwicklung und Anwendungsfälle
  2. Modellarchitektur und Größe
  3. Offenheit, technische Dokumentation und Interoperabilität
  4. Trainingsdaten, Datenqualität, Ethik und Fairness
  5. Datenschutz und Sicherheit
  6. Ressourcenverbrauch
  • Entwicklung
  • Architektur
  • Offenheit
  • Trainingsdaten & Ethik
  • Datenschutz

Ziel der Entwicklung:

  • Vielseitige Sprachverarbeitung und -generierung: GPT wurde entwickelt, um menschenähnliche Konversationen zu führen, und bildet die Grundlage für die Anwendung „ChatGPT“, einen Chatbot, der als virtueller Assistent bei einer Vielzahl von Aufgaben unterstützen soll.

Anwendungsfälle:

  • Textgenerierung, Übersetzung, Zusammenfassungen
  • Konversations-KI: Kundenservice und Support, Chatbots für Websites
  • Erstellung von jeglichem Content, wie das Verfassen von Artikeln oder Blog Posts
  • Entwicklung
  • Architektur
  • Offenheit
  • Trainingsdaten & Ethik
  • Datenschutz

Ziel der Entwicklung:

  • LLaMA ist ein Forschungsmodell, das entwickelt wurde, um die Grenzen der Sprachmodellforschung zu erweitern und Zugang zu leistungsstarken Modellen für akademische Zwecke zu bieten​.

Anwendungsfälle:

  • Forschung
  • Experimentelle Studien zur Sprachmodellierung
  • Entwicklung neuer Algorithmen für Sprachverarbeitung​
  • Entwicklung
  • Architektur
  • Offenheit
  • Trainingsdaten & Ethik
  • Datenschutz

Ziel der Entwicklung:

  • Bloom wurde als Open-Source-Modell entwickelt, um mehrsprachige Sprachverarbeitung und Forschung zu unterstützen.

Anwendungsfälle:

  • Mehrsprachige Textgenerierung
  • Übersetzung und sprachliche Analyse
  • Forschung im Bereich der natürlichen Sprachverarbeitung
  • Entwicklung
  • Architektur
  • Offenheit
  • Trainingsdaten & Ethik
  • Datenschutz

Ziel der Entwicklung:

  • Claude wurde entwickelt, um möglichst sichere und verlässliche KI-gestützte Konversationen zu ermöglichen, mit einem Fokus auf ethische KI​.

Anwendungsfälle:

  • Chatbots für sichere Kommunikation
  • Anwendungen im Bereich Ethik und KI-Sicherheit
  • Unterstützung in beratenden Rollen oder als Assistenz​
     
  • Entwicklung
  • Architektur
  • Offenheit
  • Trainingsdaten & Ethik
  • Datenschutz

Ziel der Entwicklung:

  • Die Entwicklung von PaLM zielt darauf ab, ein umfassendes Verständnis der menschlichen Sprache zu entwickeln und komplexe Aufgaben der Sprachverarbeitung zu lösen​.

Anwendungsfälle:

  • Fortgeschrittene Sprachverarbeitung
  • Multimodale Anwendungen
  • Anwendungen in der Forschung zur Sprachverarbeitung
  • Entwicklung
  • Architektur
  • Offenheit
  • Trainingsdaten & Ethik
  • Datenschutz

Ziel der Entwicklung:

  • Stable Diffusion wurde entwickelt, um hochwertige, generative Bilder zu erzeugen und kreative Prozesse in der digitalen Kunst zu unterstützen​.

Anwendungsfälle:

  • Künstlerische Bildgenerierung
  • Kreative Projekte im Bereich Grafikdesign
  • Experimentelle Kunst und visuelle Medien​
  • Entwicklung
  • Architektur
  • Offenheit
  • Trainingsdaten & Ethik
  • Datenschutz

Ziel der Entwicklung:

  • DALL-E wurde entwickelt, um aus Textbeschreibungen kreative und realistische Bilder zu generieren​

Anwendungsfälle:

  • Kreative Tools für Designer:innen und Künstler:innen
  • Visuelle Unterstützung in Marketing und Werbung
  • Experimentelle Anwendungen in der Bildgestaltung​

Ressourcenverbrauch (Stand August 2024)

Die Lücken in der Tabelle zeigen, dass aktuell viele konkrete Daten zum Ressourcenverbrauch von KI-Modellen fehlen, da die Unternehmen diese Informationen oft nicht offenlegen. Diese Lücken verdeutlicht den dringenden Handlungsbedarf, mehr Transparenz über die Modelle und ihre Entwicklungsprozesse zu schaffen. Weitere Informationen im Kapitel “Ökologische Schattenseiten: vom Stromverbrauch bis zum Wasserbedarf”.

Für einen besseren Vergleich der einzelnen Modelle können Sie die Vergleichstabelle als PDF herunterladen. Nutzen Sie dazu einfach die Schaltfläche „Download“.



Der Text und die Grafiken dieser Seite sind lizenziert unter der Creative Commons Namensnennung 4.0 International (CC BY 4.0) Lizenz. Den vollständigen Lizenztext finden Sie unter: https://creativecommons. org/licenses/by/4.0/legalcode.de .