Warum können Sprachmodelle nicht gut schreiben?

foto freepik ki

  • LLMs beherrschen Sprache, aber nicht Schreiben: Trotz enormer technischer Fortschritte erzeugen große Sprachmodelle Texte, die formal korrekt, aber stilistisch flach, repetitiv und emotional leer bleiben. Kreative Tiefe, Perspektive und echte Stimme fehlen.

  • Training optimiert auf Muster, nicht auf Bedeutung: Modelle lernen aus riesigen Mengen mittelmäßiger Internettexte und werden auf „hilfsbereit, harmlos, korrekt“ getrimmt. Diese Optimierung glättet Ecken und Kanten – und damit genau das, was gute Texte ausmacht.

  • Bewertung von Stil ist für KI‑Labore kaum operationalisierbar: Kriterien wie Tonfall, Originalität oder literarische Qualität lassen sich nur schwer in messbare Regeln übersetzen. Bewertungsraster wirken oft absurd und fördern Konformität statt Ausdruckskraft.

  • Kreativität kollidiert mit Sicherheits‑ und Compliance‑Zielen: Je stärker Modelle auf Sicherheit, Neutralität und Fehlervermeidung getrimmt werden, desto weniger Raum bleibt für überraschende, mutige oder unkonventionelle Formulierungen.

  • Menschliche Erfahrung bleibt unersetzlich: Gute Texte entstehen aus Biografie, Wahrnehmung, Emotion und Kontext – Dimensionen, die Modelle nicht besitzen. KI kann unterstützen, aber nicht die individuelle Perspektive eines Autors ersetzen.

Die amerikanische Autorin Jasmine Sun fragt in ihrem Artikel „The Human Skill That Eludes AI“, der im März 2026 in dem amerikanischen Magazin „The Atlantic“ erschienen ist, „Warum können Sprachmodelle nicht gut schreiben?“

Jasmine Sun ist der Ansicht, dass die generative AI bereits vor sieben Jahren mit OpenAIs GPT-2 ihren Höhepunkt erreicht habe: „GPT-2, das außerhalb von Tech-Kreisen kaum bekannt war, glänzte durch unerwartete Antworten. Es war kreativ. Man konnte zum Beispiel sagen: ‚Erzähl weiter: Der Mann beschloss, zu duschen‘, und GPT-2 antwortete: ‚Und unter der Dusche aß er etwas Obst und dachte an seine Frau‘.

Seit dem Jahr 2017 experimentierten Sprachmodelle bereits mit solchen Aufgaben. „Doch das können die Modelle heute nicht mehr“, sagt die Computer-Wissenschaftlerin Katy Gero. AI-Experten rühmen sich zwar weiterhin der übermenschlichen technischen Fähigkeiten ihrer Modelle, und moderne Technologien können Proteinstrukturen vorhersagen, realistische Videos erstellen und Apps mit nur einer Eingabeaufforderung entwickeln.

Doch Führungskräfte und Forscher geben auch bereitwillig zu, dass sie noch kein Modell entwickelt haben, das gut schreiben kann. Zwar geht OpenAI-CEO Sam Altman davon aus, dass große Sprachmodelle bald in der Lage sein werden, „das Klima zu retten, eine Weltraumkolonie zu gründen und alle physikalischen Fragen zu beantworten“ (https://ia.samaltman.com/), in einem Interview mit dem Ökonomen Tyler Cowen vermutete er jedoch, dass selbst zukünftige Modelle (etwa GPT-6 oder GPT-7) nur etwas hervorbringen könnten, das einem „mittelmäßigen Gedicht eines Poeten“ entsprechen wūrde (https://conversationswithtyler.com/episodes/sam-altman-2/).

 

Nichts, was ich lesen möchte

Die AI-generierten Texte von heute sind noch immer voller Fehler. Chatbots produzieren bedeutungslose Metaphern, endlose „Es ist nicht dies, sondern das“-Konstruktionen und einen unterwürfigen Ton. Jasmine Sun ergänzt: „Ich wollte verstehen, warum das so ist – warum große Sprachmodelle, die schließlich Jahrhunderte großer Literatur hinter sich haben, besondere Fähigkeiten entwickeln können, aber dennoch bisher keinen einzigen Aufsatz produziert haben, den ich lesen möchte.“

Sie sprach deshalb mit Experten: Mitarbeitern von Sprachmodellierungen, Anbietern von AI-Daten, Informatikinstituten an Universitäten und Start-ups im AI-Umfeld – teilweise unter der Bedingung der Anonymität, die einige Arbeitgeber verlangten. Dabei ergab sich unter anderem, dass große Sprachmodelle (LLMs, Large Language Models) als eher unbedarfte Leseversuche beginnen. In einer Vortrainingsphase saugen sie praktisch das gesamte Internet auf – darunter zum Beispiel Reddit-Posts, YouTube-Transkripte, SEO-Texte – und bauen auf dieser Basis Muster auf.

Die meisten dabei verwendeten Texte müssen nicht besonders anspruchsvoll sein. Entscheidend ist jedoch ihre Quantität, weniger ihre Qualität. Das durchgeführte Vortraining vermittelt den AI-Programmen einige Grammatikregeln und Wortassoziationen und ermöglicht auf diese Weise die sogenannte „Next-Token-Vorhersage“: Modelle bestimmen immer wieder aufs Neue, welcher Wortteil auf einen anderen folgt.

In der Nachtrainingsphase werden dann die Schwächen abgeschliffen. Hierbei definieren LLM-Anbieter den idealen „Charakter“ für ein AI-Modell (zum Beispiel „hilfsbereit, ehrlich und harmlos“), stellen Beispieldialoge zum Lernen zur Verfügung und implementieren Sicherheitsfilter, mit denen unzulässige Anfragen blockiert werden können. Durch Verfahren wie „Reinforcement Learning mit menschlichem Feedback“, bei dem Menschen die AI-Produkte anhand eines Bewertungsrasters beurteilen, lassen sich die Modelle weiter verbessern.

 

AI-Forschung als empirische Wissenschaft

Die Schwierigkeiten, Texte und Schreiben zu bewerten, halten AI-Labore nicht davon ab, es immer wieder zu versuchen. Sie werden dabei unter anderem von einer Frage motiviert, die in vielen Interviews von Jasmine Sun immer wieder auftauchte: Wenn LLM-Absolventen keine tiefgründigen Essays oder emotional ansprechende Gedichte schreiben können, sind sie dann überhaupt intelligent? Und können sie LLM-Ergebnisse angemessen bewerten?

Labore versuchen daher, AI-generierte Texte anhand verschiedener Kriterien zu bewerten. Nach dem Training prüfen die Teams die Ergebnisse der Modelle zunächst anhand ihres persönlichen Geschmacks, und Unternehmen beauftragen Fachexperten, um angemessene Feedbacks zu den von Modellen generierten Texten zu erhalten.

Jasmine Sun interviewte zwei Personen, die vor kurzem als Textbewerter für große AI-Labore gearbeitet hatten. Eine, ein Auftragnehmer bei Scale AI, beschrieb aus erster Hand die Absurditäten der Aufgabe: Um etwas so Kompliziertes wie „Tonfall“ in konkrete Kriterien zu übersetzen, enthielten die Bewertungsraster Regeln wie: „Die Antwort sollte maximal zwei Ausrufezeichen enthalten.“ Der Auftragnehmer erzählte Sun: „Es gab zahlreiche Fälle, in denen man, obwohl Antwort B insgesamt besser erschien, am Ende ‚Ich bevorzuge A‘ bewertete, weil sie drei Ausrufezeichen enthielt.“

Die zweite Person, mit der Sun direkt sprach, ist ein Autor, der direkt mit dem technischen Forschungsteam eines Spitzenforschungslabors zusammengearbeitet hat. Das Unternehmen bat ihn häufig, die spezifischen Elemente zu analysieren, die ein literarisches Werk besonders machen und vor anderen hervorheben. „Das ist mit dieser Denkweise völlig unlösbar“, erklärte er Sun. Als Beispiel verwies er auf klassische, englische Sonette: Sie gehören zwar technisch gesehen zu den am stärksten standardisierten Formen, aber nur weil ein Sonett 14 Zeilen hat und im jambischen Pentameter verfasst ist, ist es noch lange nicht gut. Jasmine Sun kommentiert: „Selbst wenn Shakespeare sehr strukturiert vorgeht, versucht er ständig, sich nicht an die Vorgaben zu halten, er versucht, sie zu untergraben oder neu zu erfinden. Ich weiß nicht, was letztlich den Unterschied zwischen einem Dichter, der nach Schema F schreibt, und Shakespeare ausmacht. Ich weiß nur, dass man die beiden niemals verwechseln kann.“

 

Kreativ oder nützlich

In gewisser Weise steht Kreativität im direkten Widerspruch zu den anderen Zielen von AI-Unternehmen. Chatbots werden in der Regel darauf trainiert, Fehlinformationen, politische Voreingenommenheit, pornographisches Material, Urheberrechtsverletzungen und Ähnliches zu vermeiden. Ihre Leistung wird anhand von Benchmarks wie SWE-bench (für Programmieraufgaben) und GPQA (Naturwissenschaften) bewertet.

Wenn zum Beispiel viele Anwender inzwischen ChatGPT zum Verfassen von Geschäfts-Mails verwenden, sind Fettdruck und kurze Stichpunkte möglicherweise genau das, was sie wünschen. „Je mehr man diese Merkmale kontrolliert“, erklärt Nathan Lambert vom Allen Institute for AI, „desto mehr unterdrückt man die Kreativität der Mitarbeiter in einem Unternehmen.“

Wenn man einem Modell laut Lambert beibringt, ein brillanter Stilist zu sein, gleichzeitig aber auch ein Mathematiker auf Doktorebene und strikt jugendfrei, wird es schließlich starr und verschlossen reagieren – wie ein nervöser Bewerber im Vorstellungsgespräch, der Angst hat, einen Fehler zu machen.

 

Modelle und Realität

Wenn ein erfahrener Schreiber eine bestimmte Formulierung wählt, strebt er in der Regel nicht nach einem einheitlichen Standard für großartiges Schreiben. Vielmehr entspringen die besten Metaphern meistens der individuellen Mischung aus Erfahrungen und Expertise des Autors. Die Wortwahl, die Zitate und die Geschichten, die ein Schriftsteller erzählt, spiegeln eine einzigartige, unnachahmliche Perspektive wider – seine ganz persönliche Perspektive. Die Stimme eines Autors entsteht aus der Einzigartigkeit seines Lebens, seiner Erfahrungen und seiner erlernten Schreibtechniken.

Technische Modelle – obwohl versiert und grammatikalisch einwandfrei – können nicht leben, fühlen, riechen, schmecken oder wahrnehmen. Sie können keine rohen Emotionen aufs Papier bringen oder abstrakte Konzepte in detailreiche, physische Umgebungen einbetten. Aufmerksamen Lesern von AI-Texten fällt oft auf, wie seltsam Metaphern sein können: LLMs ordnen zum Beispiel Wochentagen Geschmacksrichtungen zu oder verwandeln sie in bestimmte Gegenstände wie zum Beispiel Spiegel.

Jasmine Sun hat dem Chatbot Claude ein Archiv ihrer bisherigen Texte zur Verfügung gestellt, zusammen mit ihren Anmerkungen zu den Stärken und Schwächen der einzelnen Texte. Daraus erstellte sie dann eine individuelle Bearbeitungsrichtlinie, die auf ihrem Schreibstil basiert. Einige Kriterien sind allgemein gehalten, andere personalisiert. Eines lautet zum Beispiel: „Passt das zu Deiner Position als Insider-Anthropologe im Silicon Valley?“ Ein anderes fragt, ob die hauptsächliche These in den ersten 500 Wörtern des Textes erkennbar ist. Dann hat sie diese Angaben in ein Claude-Projekt eingefügt und es an seine Rolle erinnert: „Du bist kein Co-Autor. Du kannst nicht wahrnehmen. Deine Aufgabe ist es, Jasmine dabei zu helfen, so zu schreiben, wie sie es am besten kann.“ „Ich will nicht meine Fähigkeiten verlieren“, erinnerte sie die Maschine. „Deine einzige Aufgabe ist es, mich schlauer zu machen.“

Hartmut Wiehr, freier Journalist

 

1451 Artikel zu „KI kreativ“

Modernes Marketing: Marketer-Kreativität und KI-Innovation

KI hält unvermindert Einzug in die verschiedensten Lebens- und Arbeitsbereiche. Wie können Unternehmen mit KI im Marketing gänzlich neue Chancen nutzen?   Im Marketing ist es Status quo, dass Fachleute ihre Kampagnen aufwendig manuell entwerfen und durchführen. Mit KI stehen jetzt aber die Werkzeuge zur Verfügung, um in großem Umfang datengesteuert und automatisiert zu arbeiten.…

KI befeuert Meetings: Drei Gründe, warum künstliche Intelligenz kreative Teamarbeit fördert

Welche Aufgaben können KI-Technologien in Meetings übernehmen, um Mitarbeiter zu entlasten und mehr Raum für Ideen zu schaffen? An künstlicher Intelligenz führt kein Weg vorbei. Das haben mittlerweile auch die meisten Befragten einer internationalen Umfrage erkannt, die IDG im Auftrag von LogMeIn durchgeführt hat. KI-gesteuerte Kommunikationswerkzeuge spielen für Unternehmen der unterschiedlichsten Branchen demnach eine immer…

Schlechtes Image: KI gilt als Kreativitätskiller und undurchsichtige Konkurrenz

Jedem zweiten volljährigen Berufstätigen bereiten Veränderungen im Arbeitsleben durch künstliche Intelligenz Sorgen. Das zeigt die Studie »Künstliche Intelligenz am Arbeitsplatz 2018« des IMWF Instituts für Management und Wirtschaftsforschung und des Marktforschungsinstituts Toluna, für die 2.000 Arbeitnehmer ab 18 Jahren repräsentativ befragt wurden [1]. Androiden, die von echten Menschen nicht mehr zu unterschieden sind, bleiben auf…

Kompetenzen im Umgang mit KI messbar machen

Als erste Hochschule in Deutschland setzt die IU auf einen systematischen Ansatz, um Kompetenzen im Umgang mit KI messbar zu machen. Fünfstufiges KI-Kompetenzmodell im Lehrplan verankert: von grundlegender Nutzung bis zur strategischen Zusammenarbeit mit KI. Internationale Befragung bestätigt: 61,5 Prozent der Befragten bewerten das Modell gegenüber vergleichbaren Frameworks (z.B. WEF) als effektiver. Seit April nehmen…

Warum die Qualität der KI trotz steigender Adoption nicht Schritt hält

KI‑Adoption steigt – Qualität stagniert oder sinkt: Trotz breiter Einführung von KI‑Features scheitert über die Hälfte der KI‑Initiativen am Übergang in den produktiven Betrieb; Halluzinationen und Fehlinterpretationen nehmen wieder zu. Teststrategien kommen nicht hinterher: Unternehmen setzen zwar stärker auf KI‑gestützte und menschliche Testmethoden, doch die Geschwindigkeit und Komplexität der KI‑Entwicklung überfordern klassische QA‑Prozesse. Multimodale KI…

Agentic AI: Warum ein Großteil der KI-Agenten im technischen Einkauf scheitern wird

Kommentar von Robert Hilmer, CEO PartSpace »Die Unternehmensberatung McKinsey & Company hat kürzlich eine unbequeme Wahrheit ausgesprochen: Das Problem mit KI im Einkauf ist kein Technologieproblem, sondern ein Leadership-Problem. In ihrem Report »Redefining procurement performance in the era of agentic AI« beschreibt die Beratung den Wandel von analytischer KI nach dem Motto »Zeig mir die…

Unternehmen mit erfolgreichen KI-Initiativen investieren mehr in die Grundlagen für Daten und Analysen

Bis 2030 wird es die zentrale Aufgabe von D&A-Führungskräften sein, neue vertrauenswürdige Daten, kontextbezogene Grundlagen und fundierte Erkenntnisse bereitzustellen.   Unternehmen, die über erfolgreiche KI-Initiativen berichten, investieren, gemessen am Umsatz, bis zu viermal mehr in grundlegende Bereiche wie Datenqualität, Governance, KI-Kompetenzen der Mitarbeitenden und Change Management als solche, die mit KI nur geringe Erfolge erzielen.…

Neuronal-symbolisches Hybridkonzept: Sprach-KI erhält »Leitplanken«

Moderne Speech-to-Speech-Modelle sorgen für flüssige Dialoge, Leitplanken stellen sicher, dass die KI nicht außer Kontrolle gerät: Spitch setzt auf neuronal-symbolisches Hybridkonzept.   »Es gibt viele beeindruckende Demonstrationen über die Leistungsfähigkeit von KI-Systemen, aber die Herausforderung für Unternehmen besteht darin, diese alltagstauglich zu machen«, sagt Joe Novak, Chief Innovation Officer and Co-Founder der Spitch AG. Der…

Agentic Commerce: So verändert KI Online-Shopping

KI gilt für die Mehrheit der Online-Händler als Wettbewerbsfaktor. Whitepaper ordnet KI-Trends im Online-Handel ein und gibt Einblicke in die Praxis.   Ob KI-Agenten, die Verfügbarkeiten von Artikeln prüfen, KI-Chatbots, die Fragen zur Lieferung beantworten oder virtuelle Anproben mithilfe von Augmented Reality: KI wird im Online-Handel zu einem zentralen Wettbewerbsfaktor. 61 Prozent der Händler gaben…

Sieben Vorurteile über KI-Telefonie, die der Alltag längst widerlegt hat

Obwohl die Technik längst im beruflichen Alltag angekommen ist, kämpft KI-Telefonie noch immer mit einem Image aus »alter Sci-Fi« und »Callcenter-Frust«. Viele verbinden sie noch mit steifen Sprachmenüs, Roboterstimmen oder unflexiblen Gesprächsverläufen. Dabei hat sich die Technologie in den letzten Jahren rasant weiterentwickelt. Moderne Systeme sind lernfähig, kontextsensibel und längst ein fester Bestandteil digitaler Serviceprozesse.…

Mit KI zu neuen Forschungsthemen in den Materialwissenschaften

Die Zahl wissenschaftlicher Publikationen wächst so schnell, dass Wissenschaftlerinnen und Wissenschaftler selbst im eigenen Fachgebiet nicht mehr alle Arbeiten überblicken können. Wie sich aus dieser Fülle dennoch neue Forschungsideen ableiten lassen, zeigen Forschende des Karlsruher Instituts für Technologie (KIT) gemeinsam mit Partnern in einer aktuellen Studie: Mithilfe von künstlicher Intelligenz (KI) werten sie Publikationen in…

KI-Rausch und Qualitäts-Kater

Unternehmen investieren Milliarden in generative KI für die Code-Entwicklung. Doch wer investiert in das intelligente Gegengewicht, das für die nötige Stabilität sorgt? Ein Expertenkommentar von Roman Zednik, Field CTO bei Tricentis, der die vergessene zweite Hälfte einer erfolgreichen KI-Strategie beleuchtet – und zeigt, warum der alleinige Fokus auf Entwicklerproduktivität gefährlich kurzsichtig ist.   »Ein historischer…

Das Wikipedia‑Verbot für KI‑Texte ist ein Weckruf für Unternehmen

  Datenökologie, Governance und strategische Risiken im Zeitalter generativer KI   Das Wikipedia‑Verbot für KI‑Texte ist weniger ein KI‑Problem als vielmehr ein Signal für die Bedeutung stabiler unternehmensinterner Datenökosysteme. Model Collapse und »Habsburg AI« sind reale Risiken, entstehen jedoch nicht automatisch, sondern vor allem durch fehlende Daten‑Governance und unkontrollierten Einsatz synthetischer Inhalte. Die zentrale Botschaft…

Warum Wikipedia den Einsatz generativer KI einschränkt: Habsburg KI als datenökologisches Risiko

Die Entscheidung der englischsprachigen Wikipedia, den Einsatz großer Sprachmodelle (Large Language Models, LLMs) zum Schreiben oder Umschreiben von Artikeln weitgehend zu untersagen, markiert einen Wendepunkt im gesellschaftlichen Umgang mit generativer künstlicher Intelligenz. Auf den ersten Blick wirkt das Verbot paradox: Gerade LLMs sind in der Lage, formal korrekte, gut strukturierte und enzyklopädisch anmutende Texte zu…

KI sorgt häufiger für Beschäftigungswachstum als für Stellenabbau

Viele Unternehmen melden Beschäftigungswachstum durch KI.   Der Einsatz von künstlicher Intelligenz geht in deutschen Unternehmen häufiger mit Beschäftigungswachstum als mit Stellenabbau einher. Zu diesem Ergebnis kommt eine neue globale Studie von Snowflake, dem AI Data Cloud-Unternehmen, die in Zusammenarbeit mit dem Marktforschungsunternehmen Omdia veröffentlicht wurde. Für die Studie »The ROI of Gen AI and Agents«…

Massive Dynamik hin zum KI‑gestützten Prozessmanagement

Künstliche Intelligenz entwickelt sich im Prozessmanagement vom Analyse‑Werkzeug zum aktiven Gestalter und läutet das Zeitalter des »Agentic BPM« ein. Immer mehr Unternehmen setzen bereits auf generative KI und KI‑Agenten, doch strategische Nutzung, Governance und Datenqualität bremsen oft die Skalierung. Wer jetzt gezielt in Entscheidungsintelligenz, Kompetenzen und saubere Prozessarchitekturen investiert, verschafft sich nachhaltige Effizienz‑ und Innovationsvorteile.…

Die Technologie-Branche steht vor tiefgreifender Transformation und neuen Skill-Bedarfen

Die Technologie-Branche befindet sich in einer Phase erheblicher Umbrüche. KI-gestützte Systeme, Automatisierung und Cloud-Infrastrukturen optimieren Prozesse und verändern Kompetenzprofile in einem rasanten Tempo. Das belegt auch der Skills Economy Report 2026 von Cornerstone, der auf mehr als 28 Terabyte Echtzeit-Arbeitsmarktdaten aus über 200 Ländern basiert [1]. Der Report zeigt deutlich, dass KI, Code-Automation sowie smarte…

KI und Arbeit: Warum der große Jobabbau ausbleibt – und was sich stattdessen verändert

Während viele vor einer KI‑bedingten Entlassungswelle warnen, zeigen Daten und Praxis ein deutlich widersprüchlicheres Bild. KI ersetzt bislang kaum Jobs, sondern verschiebt Aufgaben, scheitert aber an Datenqualität und schafft neue Rollen dort, wo Prozesse neu gedacht werden. Warum Angst schneller wächst als Produktivität – und weshalb Europas Herausforderung weniger im Personalabbau als in Qualifizierung und…

KI als Partner statt Werkzeug: Die wichtigsten Data‑&‑Analytics‑Trends bis 2030

Management‑Summary: Zentrale Gartner‑Prognosen zu Data & Analytics bis 2030 Gartner prognostiziert einen grundlegenden Wandel im Umgang mit Daten, Analysen und künstlicher Intelligenz. KI entwickelt sich von einem unterstützenden Werkzeug zu einem aktiven, autonomen Partner, der Organisationen strukturell, technologisch und kulturell verändert. KI wird zum strategischen Partner von Unternehmen Bis 2026/27 verschwimmen die Grenzen zwischen menschlicher,…

Vertiv industrialisiert KI-Bereitstellung mit digital orchestrierter Infrastruktur 

Die werkseitig integrierte, digital validierte Infrastruktur Vertiv OneCore reduziert die Komplexität der Bereitstellung vor Ort und beschleunigt die Termintreue trotz immer strengerer Bauauflagen. Vertiv industrialisiert die KI-Bereitstellung und kooperiert für bessere Skalierbarkeit mit Hut 8.   Vertiv, ein weltweit agierender Anbieter für kritische digitale Infrastrukturen, gibt eine bedeutende Weiterentwicklung im Bereich der Bereitstellung von Rechenzentren…