Internationales Zentrum für Ethik in den Wissenschaften (IZEW)

Bitte nicht missverstehen: Generative Sprachmodelle

Informations- und Wahrheitsgehalte KI-generierter Texte in der menschlichen Wahrnehmung

von Jacqueline Bellon

12.09.2023 · Der Mathematiker und Begründer der Informationstheorie Claude Elwood Shannon – nach dem die Einheit „Shannon“ benannt ist, die den Informationsgehalt einer Nachricht bezeichnet (auch „Bit“ genannt) – schreibt 1948:

„Die […] semantischen Aspekte der Kommunikation sind für das technische Problem irrelevant. Der entscheidende Aspekt ist, dass die eigentliche Nachricht aus einer Menge von möglichen Nachrichten ausgewählt wird. Das System muss so entworfen werden, dass es für jede mögliche Auswahl funktioniert, nicht nur für diejenige, die tatsächlich gewählt wird, da diese zum Zeitpunkt der Entwicklung unbekannt ist.“ (Shannon 1948: 379)

Er betont weiterhin, dass aus einer endlichen Anzahl von Möglichkeiten für den Überträger einer Nachricht – zum Beispiel für ein Telefonsystem oder Magnetband – alle Möglichkeiten gleich wahrscheinlich sind: Das Telefon oder der Videorekorder nehmen nichts an, sie gehen von nichts aus, sie erwarten inhaltlich keine bestimmten Informationen und nehmen bestimmte Informationen nicht stärker auf als andere. Zum Beispiel werden sinnhafte Wortfolgen nicht deutlicher aufgenommen und wiedergegeben als Rauschen oder was wir Hintergrund- und Störgeräusche nennen. Solche technischen Systeme differenzieren also nicht zwischen wahrscheinlicheren oder unwahrscheinlicheren Informationen. Sinneinheiten werden genauso übermittelt, wie Einheiten von „Unsinn“. Es gibt keine ordnende Funktionseinheit der verschiedenen Informationen, wie es sie in der menschlichen Wahrnehmung gibt.

Seither haben sich technische Systeme verändert und es ergeben sich einige Fragen, wenn man die Theorie von Shannon, die er unter anderem für die Telegraphie und Telefonie entworfen hatte, zum Beispiel auf die Textproduktion großer Sprachmodelle anwendet. So könnte man zum Beispiel fragen, wo genau die Informationsquelle eines generierten Textes zu verorten wäre: diffus in den Trainingsdaten; bei denen, die den Text, der in den Trainingsdaten zu finden ist, geschrieben haben; im generierten Text selbst? Hier soll nur ein anderer spezifischer Aspekt hervorgehoben werden: Menschliche Kommunizierende sind in der Regel gewohnt, dass spezifische sprachliche Merkmale mit bestimmten Wahrscheinlichkeiten auftreten und mit anderen Gegebenheiten korrelieren. Z.B. können wir anhand eines uns bekannten Akzents in der gesprochenen Sprache mit einigermaßen hoher Trefferquote die Muttersprache eines Sprechenden bestimmen, anhand spezifischen Wortgebrauchs Sozialisationsmilieus zuschreiben oder über Dialekte die nationalgeografische Herkunft von Personen erkennen. Vor allem sind wir aber gewohnt, dass Worte meistens Inhalt und Bedeutung sowie eine Informationsquelle oder einen Sender mit Absichten haben.

Wenn Menschen KI-generierten Text rezipieren, scheinen sie sich dabei, zumindest teilweise, an ihren Gewohnheiten zu orientieren und verkennen damit teils auch die grundsätzlich statistische Natur von Sprachmodellen. Was damit gemeint ist und wie sich ein spezifisches Missverständnis dieser Tatsache im Alltag zeigt, illustrieren folgende Beispiele.

Während generierte Texte der Form nach korrekte und plausibel scheinende Informationen zu enthalten scheinen, heißt das nicht gleichzeitig, dass diese auch der Wahrheit – im Sinne von: der tatsächlich gegebenen Existenz – entsprechen. Wie in der von Shannon beschriebenen Telefonie oder Telegraphie ist auch bei textgenerierenden Modellen der semantische Gehalt für die technische Umsetzung irrelevant: Die mathematischen Operationen, die bestimmen, welche Wortfolge generiert wird, haben keinen Bezug zum semantischen Inhalt in dem Sinn, dass das, was Menschen dann als Bedeutung oder Informationsgehalt wahrnehmen, darin verhandelt würde. In Bezug auf Wahrscheinlichkeiten allerdings unterscheiden sich textgenerierende Modelle radikal von den bei Shannon behandelten Technologien: Sie basieren gerade darauf, Wahrscheinlicheres von Unwahrscheinlicherem zu unterscheiden und rufen deshalb noch deutlich stärker den Eindruck hervor, informiert zu „sprechen“, also, zu „wissen“. Dabei „wissen“ oder „verstehen“ sie gar nichts (vgl. auch Floridi 2023). Sie reihen lediglich wahrscheinliche Wortfolgen aneinander, wobei sich die Wahrscheinlichkeit bestimmter Wortfolgen aus den verfügbaren Trainingsdaten und teils einer Nachmoderation durch Menschen ergibt. Hier findet sich zum Weiterlesen eine ausführliche und leicht verständliche Erklärung zur Funktionsweise von Transformermodellen.

Die genannten Beispiele zeigen, dass Missverständnisse bezüglich des Verhältnisses von Informations- und Wahrheitsgehalten generierten Textes zu verschiedenen – und noch viel weitreichenderen, z.B. gesellschaftlichen und demokratiegefährdenden – Problemen führen können.

Während an anderer Stelle – und im Rahmen eines Institutes, das, wie etwa Émile Torres hervorhebt, ideologisch der mit einigen Problemen einhergehenden Einstellung des sogenannten Longtermism zuzuschreiben ist – ein Stopp der entsprechenden technischen Entwicklungen gefordert wurde, was einige Aufmerksamkeit erregte, plädiere ich für die Vermittlung kritischen Urteilsvermögens und insbesondere epistemischer Kompetenz. Die unvermeidliche Integration der öffentlich zugänglichen und verfügbaren Technologie in den Lebens- und Gesellschaftsalltag muss von Angeboten begleitet werden, mit denen einer breiten Öffentlichkeit deutlicher wird, was die Anwendungen leisten können und was nicht – und mit denen dadurch und darüber hinaus epistemische Kompetenz erlernt werden kann. Epistemische Kompetenz heißt dabei nicht, dass alles gewusst werden kann. Epistemische Kompetenz beinhaltet die Fähigkeit der Reflexion der eigenen Wahrnehmungen, Unterstellungen und Zuschreibungen. In anderen Worten: Epistemische Kompetenz beinhaltet Wissen darüber, wann es sich lohnt, genauer hinzusehen – und zwar sowohl zum Gegenstand selbst hin als auch mit Blick auf die eigenen Wahrnehmungsprozesse.

---------------------------------------

Zum Weiterlesen: Dieser Beitrag ist Teil einer Reihe von Blogbeiträgen zum Thema generative Künstliche Intelligenz, die u.A. im Rahmen des Cluster Integrierte Forschung und in Reaktion auf den oben genannten offenen Brief entstanden sind. Hier finden Sie weitere Beiträge zu Ghost Work und zu KI und Recht.

Literatur:

Floridi, L. (2023): AI as Agency Without Intelligence: On ChatGPT, Large Language Models, and Other Generative Models. In: Philosophy of Technology 36. https://ssrn.com/abstract=4358789

Shannon, C.E. (1948): A Mathematical Theory of Communication. In: The Bell System Technical Journal 27 (3), S. 379-423. https://doi.org/10.1002/j.1538-7305.1948.tb01338.

-------------------------------------

Kurz-Link zum Teilen des Beitrags: https://uni-tuebingen.de/de/253646