foto freepik ki

LLMs beherrschen Sprache, aber nicht Schreiben: Trotz enormer technischer Fortschritte erzeugen große Sprachmodelle Texte, die formal korrekt, aber stilistisch flach, repetitiv und emotional leer bleiben. Kreative Tiefe, Perspektive und echte Stimme fehlen.
Training optimiert auf Muster, nicht auf Bedeutung: Modelle lernen aus riesigen Mengen mittelmäßiger Internettexte und werden auf „hilfsbereit, harmlos, korrekt“ getrimmt. Diese Optimierung glättet Ecken und Kanten – und damit genau das, was gute Texte ausmacht.
Bewertung von Stil ist für KI‑Labore kaum operationalisierbar: Kriterien wie Tonfall, Originalität oder literarische Qualität lassen sich nur schwer in messbare Regeln übersetzen. Bewertungsraster wirken oft absurd und fördern Konformität statt Ausdruckskraft.
Kreativität kollidiert mit Sicherheits‑ und Compliance‑Zielen: Je stärker Modelle auf Sicherheit, Neutralität und Fehlervermeidung getrimmt werden, desto weniger Raum bleibt für überraschende, mutige oder unkonventionelle Formulierungen.
Menschliche Erfahrung bleibt unersetzlich: Gute Texte entstehen aus Biografie, Wahrnehmung, Emotion und Kontext – Dimensionen, die Modelle nicht besitzen. KI kann unterstützen, aber nicht die individuelle Perspektive eines Autors ersetzen.

Die amerikanische Autorin Jasmine Sun fragt in ihrem Artikel „The Human Skill That Eludes AI“, der im März 2026 in dem amerikanischen Magazin „The Atlantic“ erschienen ist, „Warum können Sprachmodelle nicht gut schreiben?“

Jasmine Sun ist der Ansicht, dass die generative AI bereits vor sieben Jahren mit OpenAIs GPT-2 ihren Höhepunkt erreicht habe: „GPT-2, das außerhalb von Tech-Kreisen kaum bekannt war, glänzte durch unerwartete Antworten. Es war kreativ. Man konnte zum Beispiel sagen: ‚Erzähl weiter: Der Mann beschloss, zu duschen‘, und GPT-2 antwortete: ‚Und unter der Dusche aß er etwas Obst und dachte an seine Frau‘.

Seit dem Jahr 2017 experimentierten Sprachmodelle bereits mit solchen Aufgaben. „Doch das können die Modelle heute nicht mehr“, sagt die Computer-Wissenschaftlerin Katy Gero. AI-Experten rühmen sich zwar weiterhin der übermenschlichen technischen Fähigkeiten ihrer Modelle, und moderne Technologien können Proteinstrukturen vorhersagen, realistische Videos erstellen und Apps mit nur einer Eingabeaufforderung entwickeln.

Doch Führungskräfte und Forscher geben auch bereitwillig zu, dass sie noch kein Modell entwickelt haben, das gut schreiben kann. Zwar geht OpenAI-CEO Sam Altman davon aus, dass große Sprachmodelle bald in der Lage sein werden, „das Klima zu retten, eine Weltraumkolonie zu gründen und alle physikalischen Fragen zu beantworten“ (https://ia.samaltman.com/), in einem Interview mit dem Ökonomen Tyler Cowen vermutete er jedoch, dass selbst zukünftige Modelle (etwa GPT-6 oder GPT-7) nur etwas hervorbringen könnten, das einem „mittelmäßigen Gedicht eines Poeten“ entsprechen wūrde (https://conversationswithtyler.com/episodes/sam-altman-2/).

Nichts, was ich lesen möchte

Die AI-generierten Texte von heute sind noch immer voller Fehler. Chatbots produzieren bedeutungslose Metaphern, endlose „Es ist nicht dies, sondern das“-Konstruktionen und einen unterwürfigen Ton. Jasmine Sun ergänzt: „Ich wollte verstehen, warum das so ist – warum große Sprachmodelle, die schließlich Jahrhunderte großer Literatur hinter sich haben, besondere Fähigkeiten entwickeln können, aber dennoch bisher keinen einzigen Aufsatz produziert haben, den ich lesen möchte.“

Sie sprach deshalb mit Experten: Mitarbeitern von Sprachmodellierungen, Anbietern von AI-Daten, Informatikinstituten an Universitäten und Start-ups im AI-Umfeld – teilweise unter der Bedingung der Anonymität, die einige Arbeitgeber verlangten. Dabei ergab sich unter anderem, dass große Sprachmodelle (LLMs, Large Language Models) als eher unbedarfte Leseversuche beginnen. In einer Vortrainingsphase saugen sie praktisch das gesamte Internet auf – darunter zum Beispiel Reddit-Posts, YouTube-Transkripte, SEO-Texte – und bauen auf dieser Basis Muster auf.

Die meisten dabei verwendeten Texte müssen nicht besonders anspruchsvoll sein. Entscheidend ist jedoch ihre Quantität, weniger ihre Qualität. Das durchgeführte Vortraining vermittelt den AI-Programmen einige Grammatikregeln und Wortassoziationen und ermöglicht auf diese Weise die sogenannte „Next-Token-Vorhersage“: Modelle bestimmen immer wieder aufs Neue, welcher Wortteil auf einen anderen folgt.

In der Nachtrainingsphase werden dann die Schwächen abgeschliffen. Hierbei definieren LLM-Anbieter den idealen „Charakter“ für ein AI-Modell (zum Beispiel „hilfsbereit, ehrlich und harmlos“), stellen Beispieldialoge zum Lernen zur Verfügung und implementieren Sicherheitsfilter, mit denen unzulässige Anfragen blockiert werden können. Durch Verfahren wie „Reinforcement Learning mit menschlichem Feedback“, bei dem Menschen die AI-Produkte anhand eines Bewertungsrasters beurteilen, lassen sich die Modelle weiter verbessern.

AI-Forschung als empirische Wissenschaft

Die Schwierigkeiten, Texte und Schreiben zu bewerten, halten AI-Labore nicht davon ab, es immer wieder zu versuchen. Sie werden dabei unter anderem von einer Frage motiviert, die in vielen Interviews von Jasmine Sun immer wieder auftauchte: Wenn LLM-Absolventen keine tiefgründigen Essays oder emotional ansprechende Gedichte schreiben können, sind sie dann überhaupt intelligent? Und können sie LLM-Ergebnisse angemessen bewerten?

Labore versuchen daher, AI-generierte Texte anhand verschiedener Kriterien zu bewerten. Nach dem Training prüfen die Teams die Ergebnisse der Modelle zunächst anhand ihres persönlichen Geschmacks, und Unternehmen beauftragen Fachexperten, um angemessene Feedbacks zu den von Modellen generierten Texten zu erhalten.

Jasmine Sun interviewte zwei Personen, die vor kurzem als Textbewerter für große AI-Labore gearbeitet hatten. Eine, ein Auftragnehmer bei Scale AI, beschrieb aus erster Hand die Absurditäten der Aufgabe: Um etwas so Kompliziertes wie „Tonfall“ in konkrete Kriterien zu übersetzen, enthielten die Bewertungsraster Regeln wie: „Die Antwort sollte maximal zwei Ausrufezeichen enthalten.“ Der Auftragnehmer erzählte Sun: „Es gab zahlreiche Fälle, in denen man, obwohl Antwort B insgesamt besser erschien, am Ende ‚Ich bevorzuge A‘ bewertete, weil sie drei Ausrufezeichen enthielt.“

Die zweite Person, mit der Sun direkt sprach, ist ein Autor, der direkt mit dem technischen Forschungsteam eines Spitzenforschungslabors zusammengearbeitet hat. Das Unternehmen bat ihn häufig, die spezifischen Elemente zu analysieren, die ein literarisches Werk besonders machen und vor anderen hervorheben. „Das ist mit dieser Denkweise völlig unlösbar“, erklärte er Sun. Als Beispiel verwies er auf klassische, englische Sonette: Sie gehören zwar technisch gesehen zu den am stärksten standardisierten Formen, aber nur weil ein Sonett 14 Zeilen hat und im jambischen Pentameter verfasst ist, ist es noch lange nicht gut. Jasmine Sun kommentiert: „Selbst wenn Shakespeare sehr strukturiert vorgeht, versucht er ständig, sich nicht an die Vorgaben zu halten, er versucht, sie zu untergraben oder neu zu erfinden. Ich weiß nicht, was letztlich den Unterschied zwischen einem Dichter, der nach Schema F schreibt, und Shakespeare ausmacht. Ich weiß nur, dass man die beiden niemals verwechseln kann.“

Kreativ oder nützlich

In gewisser Weise steht Kreativität im direkten Widerspruch zu den anderen Zielen von AI-Unternehmen. Chatbots werden in der Regel darauf trainiert, Fehlinformationen, politische Voreingenommenheit, pornographisches Material, Urheberrechtsverletzungen und Ähnliches zu vermeiden. Ihre Leistung wird anhand von Benchmarks wie SWE-bench (für Programmieraufgaben) und GPQA (Naturwissenschaften) bewertet.

Wenn zum Beispiel viele Anwender inzwischen ChatGPT zum Verfassen von Geschäfts-Mails verwenden, sind Fettdruck und kurze Stichpunkte möglicherweise genau das, was sie wünschen. „Je mehr man diese Merkmale kontrolliert“, erklärt Nathan Lambert vom Allen Institute for AI, „desto mehr unterdrückt man die Kreativität der Mitarbeiter in einem Unternehmen.“

Wenn man einem Modell laut Lambert beibringt, ein brillanter Stilist zu sein, gleichzeitig aber auch ein Mathematiker auf Doktorebene und strikt jugendfrei, wird es schließlich starr und verschlossen reagieren – wie ein nervöser Bewerber im Vorstellungsgespräch, der Angst hat, einen Fehler zu machen.

Modelle und Realität

Wenn ein erfahrener Schreiber eine bestimmte Formulierung wählt, strebt er in der Regel nicht nach einem einheitlichen Standard für großartiges Schreiben. Vielmehr entspringen die besten Metaphern meistens der individuellen Mischung aus Erfahrungen und Expertise des Autors. Die Wortwahl, die Zitate und die Geschichten, die ein Schriftsteller erzählt, spiegeln eine einzigartige, unnachahmliche Perspektive wider – seine ganz persönliche Perspektive. Die Stimme eines Autors entsteht aus der Einzigartigkeit seines Lebens, seiner Erfahrungen und seiner erlernten Schreibtechniken.

Technische Modelle – obwohl versiert und grammatikalisch einwandfrei – können nicht leben, fühlen, riechen, schmecken oder wahrnehmen. Sie können keine rohen Emotionen aufs Papier bringen oder abstrakte Konzepte in detailreiche, physische Umgebungen einbetten. Aufmerksamen Lesern von AI-Texten fällt oft auf, wie seltsam Metaphern sein können: LLMs ordnen zum Beispiel Wochentagen Geschmacksrichtungen zu oder verwandeln sie in bestimmte Gegenstände wie zum Beispiel Spiegel.

Jasmine Sun hat dem Chatbot Claude ein Archiv ihrer bisherigen Texte zur Verfügung gestellt, zusammen mit ihren Anmerkungen zu den Stärken und Schwächen der einzelnen Texte. Daraus erstellte sie dann eine individuelle Bearbeitungsrichtlinie, die auf ihrem Schreibstil basiert. Einige Kriterien sind allgemein gehalten, andere personalisiert. Eines lautet zum Beispiel: „Passt das zu Deiner Position als Insider-Anthropologe im Silicon Valley?“ Ein anderes fragt, ob die hauptsächliche These in den ersten 500 Wörtern des Textes erkennbar ist. Dann hat sie diese Angaben in ein Claude-Projekt eingefügt und es an seine Rolle erinnert: „Du bist kein Co-Autor. Du kannst nicht wahrnehmen. Deine Aufgabe ist es, Jasmine dabei zu helfen, so zu schreiben, wie sie es am besten kann.“ „Ich will nicht meine Fähigkeiten verlieren“, erinnerte sie die Maschine. „Deine einzige Aufgabe ist es, mich schlauer zu machen.“

Hartmut Wiehr, freier Journalist

1451 Artikel zu „KI kreativ“

News | E-Commerce | Künstliche Intelligenz | Marketing

Modernes Marketing: Marketer-Kreativität und KI-Innovation

24. März 2025

KI hält unvermindert Einzug in die verschiedensten Lebens- und Arbeitsbereiche. Wie können Unternehmen mit KI im Marketing gänzlich neue Chancen nutzen? Im Marketing ist es Status quo, dass Fachleute ihre Kampagnen aufwendig manuell entwerfen und durchführen. Mit KI stehen jetzt aber die Werkzeuge zur Verfügung, um in großem Umfang datengesteuert und automatisiert zu arbeiten.…