Illustration Absmeier foto freepik ki

Die Entscheidung der englischsprachigen Wikipedia, den Einsatz großer Sprachmodelle (Large Language Models, LLMs) zum Schreiben oder Umschreiben von Artikeln weitgehend zu untersagen, markiert einen Wendepunkt im gesellschaftlichen Umgang mit generativer künstlicher Intelligenz. Auf den ersten Blick wirkt das Verbot paradox: Gerade LLMs sind in der Lage, formal korrekte, gut strukturierte und enzyklopädisch anmutende Texte zu erzeugen. Doch die Maßnahme ist weniger Ausdruck von Technikfeindlichkeit als vielmehr eine Reaktion auf ein inzwischen gut dokumentiertes Phänomen der KI‑Forschung: den sogenannten Model Collapse, auch bekannt als Model Autophagy Disorder (MAD). Emily Bender nennt es »Habsburg AI«. Die Inzucht‑Analogie mag überspitzt erscheinen, ist aber einprägsam.

Unter Model Collapse versteht man die fortschreitende Verschlechterung generativer Modelle, wenn diese wiederholt mit Daten trainiert werden, die von früheren KI‑Systemen erzeugt wurden. Mehrere unabhängige Forschungsarbeiten, unter anderem von Oxford, Cambridge und veröffentlicht in Nature, zeigen übereinstimmend, dass sich die statistischen Ausgabeverteilungen solcher Modelle mit jeder Generation verengen. Zunächst verschwinden seltene oder randständige Muster; in späteren Phasen konvergieren die Ausgaben zunehmend auf einen engen Mittelwert. Die Modelle verlieren damit schrittweise die Fähigkeit, die ursprüngliche Vielfalt ihrer Trainingsdaten abzubilden. [ibm.com]

Das zugrunde liegende Problem ist struktureller Natur

Generative KI lernt nicht Bedeutung oder Wahrheit, sondern Wahrscheinlichkeiten: welche Wortfolgen, Satzmuster oder Bildstrukturen in den Trainingsdaten häufig auftreten. Menschlich erzeugte Daten enthalten dabei eine hohe Varianz – kreative Brüche, Fehler, Minderheitenperspektiven, ungewöhnliche Metaphern oder widersprüchliche Argumentationsweisen. KI‑generierte Daten hingegen sind zwangsläufig statistisch geglättet. Sie bevorzugen das Wahrscheinliche, das Sichere und das Mittelmaß. Werden solche Ausgaben erneut als Trainingsmaterial verwendet, trainiert das Modell nicht mehr auf der Realität, sondern auf einer vereinfachten Kopie derselben.

Alles ist korrekt – aber nichts ist neu

Dieser Effekt äußert sich je nach Modalität unterschiedlich. Bei Texten führt Model Collapse primär zu einer sprachlichen Verarmung. In frühen Phasen verschwinden seltene Wörter, ungewöhnliche Satzkonstruktionen und originelle Argumentationsmuster. Später dominieren wiederkehrende Phrasen, formelhafte Übergänge und eine charakteristische »LLM‑Sprache«. Die Texte bleiben grammatikalisch korrekt und logisch konsistent, verlieren jedoch Originalität, argumentative Tiefe und stilistische Vielfalt. Der subjektive Eindruck lässt sich treffend so zusammenfassen: Alles ist korrekt – aber nichts ist neu.

Alles sieht gut aus – aber alles sieht gleich aus

Bei Bildern zeigt sich derselbe Mechanismus als visuelle Degeneration. Während erste Generationen KI‑erzeugter Bilder oft als ästhetisch ansprechend wahrgenommen werden – mit klarer Beleuchtung, symmetrischen Kompositionen und »perfekten« Motiven –, gehen bei wiederholtem Training auf synthetischen Daten feine Texturen, zufällige Unregelmäßigkeiten und natürliche Asymmetrien verloren. In späteren Stadien verstärken sich Artefakte, bestimmte Muster tauchen ubiquitär auf, und Bildinhalte beginnen zu verschmelzen. Das Ergebnis wirkt sauber, aber monoton: Alles sieht gut aus – aber alles sieht gleich aus.

Autophagie

Besonders tückisch ist, dass Model Collapse kurzfristig wie ein Qualitätsgewinn erscheinen kann. Die Glättung statistischer Ausreißer führt zu konsistenteren, fehlerärmeren Ausgaben. Erst langfristig wird sichtbar, dass diese »Verbesserung« mit einem Verlust an Anpassungsfähigkeit, Robustheit und Kreativität einhergeht. Forschende sprechen deshalb von einem selbstverstärkenden Rückkopplungseffekt: Kleine Fehler, Verzerrungen oder Halluzinationen werden nicht korrigiert, sondern über Generationen hinweg weitervererbt und verstärkt – ein Prozess, den die Literatur als »Selbstkonsum« oder Autophagie beschreibt.

Ein Akt der Datenökologie

Vor diesem Hintergrund erhält die Entscheidung der Wikipedia eine besondere Bedeutung. Wikipedia fungiert weltweit als zentrale Referenz‑ und Trainingsquelle für KI‑Systeme. Gelangen in großem Umfang KI‑generierte Texte in dieses Ökosystem, besteht die Gefahr einer globalen Rückkopplungsschleife: KI schreibt Wikipedia‑Artikel, diese werden als vermeintliche »Ground Truth« in künftige Trainingsdaten aufgenommen, und neue Modelle reproduzieren und verstärken die synthetischen Muster. Mit jeder Iteration wird die Kontamination schwerer zu erkennen und kostspieliger zu beheben. Das Verbot ist daher weniger eine redaktionelle Maßnahme als vielmehr ein Akt der Datenökologie – ein Versuch, die Qualität einer zentralen Wissensressource und damit auch der zukünftigen KI‑Systeme zu schützen.

Qualität und Herkunft der Daten entscheiden(d)

Die Forschung ist sich in einem Punkt bemerkenswert einig: Ohne einen kontinuierlichen Zufluss frischer, menschlich erzeugter und vielfältiger Daten ist Model Collapse langfristig unvermeidlich. Synthetische Daten können in begrenztem, kontrolliertem Umfang sinnvoll sein, etwa zur Datenaugmentation oder in klar abgegrenzten Domänen. Sie können jedoch den Verlust realweltlicher Varianz nicht kompensieren. KI kann Realität komprimieren – sie kann sie nicht regenerieren.

Die Wikipedia‑Entscheidung ist daher nicht nur ein medienpolitisches Signal, sondern ein frühes institutionelles Eingreifen in ein grundlegendes technisches Problem. Sie macht deutlich, dass die Nachhaltigkeit generativer KI nicht allein eine Frage von Rechenleistung oder Modellarchitektur ist, sondern in hohem Maße von der Qualität und Herkunft der Daten abhängt, auf denen diese Systeme lernen.

Albert Absmeier & KI

Quellen

Shumailov, I., Shumaylov, Z., Zhao, Y., Papernot, N., Anderson, R., & Gal, Y. (2024). AI models collapse when trained on recursively generated data. Nature, 631, 755–759. https://doi.org/10.1038/s41586-024-07566-y [nature.com]
Alemohammad, S., Casco-Rodriguez, J., Luzi, L., Humayun, A. I., Babaei, H., LeJeune, D., Siahkoohi, A., & Baraniuk, R. G. (2023). Self-Consuming Generative Models Go MAD. arXiv preprint arXiv:2307.01850. https://doi.org/10.48550/arXiv.2307.01850 [arxiv.org]
Xing, X., Shi, F., Huang, J., Wu, Y., Nan, Y., Zhang, S., Fang, Y., Roberts, M., Schönlieb, C.-B., Del Ser, J., & Yang, G. (2025). On the caveats of AI autophagy. Nature Machine Intelligence, 7, 172–180. https://doi.org/10.1038/s42256-025-00984-1 [nature.com]
Ropek, L. (2026). Wikipedia cracks down on the use of AI in article writing. TechCrunch (26 March 2026). [techcrunch.com]
Bansal, A. (2026). Wikipedia bans AI-generated article content after RfC. MediaNama (26 March 2026). [medianama.com]

Ergänzung:

Wer hat den Begriff »Habsburg AI« geprägt?

Der Begriff »Habsburg AI« wurde von Jathan Sadowski geprägt, einem Wissenschaftler im Bereich Technik‑ und Gesellschaftsforschung. Er verwendete die Metapher, um zu beschreiben, wie KI‑Modelle degenerieren können, wenn sie wiederholt mit KI‑generierten Daten trainiert werden – analog zur genetischen Degeneration der Habsburger durch Inzucht. [straitstimes.com]

Welche Rolle spielt Emily Bender?

Die im Text erwähnte Emily M. Bender ist Linguistin und KI‑Ethikerin (University of Washington). Sie ist bekannt für Begriffe und Konzepte wie:

„Stochastic Parrots“ (mit Timnit Gebru u. a.)
grundlegende Kritik an Sprachmodellen, Trainingsdaten und KI‑Hype

In dem Text wird »Habsburg AI« sinngemäß Emily Bender zugeschrieben, weil ihre Arbeiten inhaltlich sehr gut zu dieser Kritik passen (Daten‑Feedback‑Loops, Modellkollaps). Die Urheberschaft des Begriffs selbst liegt jedoch bei Jathan Sadowski, nicht bei ihr. [straitstimes.com]

Warum kommt es oft zur Verwechslung?

Bender ist eine der prominentesten Stimmen zur Kritik an LLM‑Training und Datenqualität.
Der Begriff »Habsburg AI« wird häufig in denselben Debatten verwendet wie Benders Arbeiten.
Autoren schreiben den Begriff daher manchmal verkürzt oder ungenau ihr zu.

4897 Artikel zu „KI Risiko“

News | Trends 2026 | Business | Trends Security | Favoriten der Redaktion | Geschäftsprozesse | IT-Security | Künstliche Intelligenz

Unternehmensrisiko: KI im Einsatz ohne Kontrolle

26. März 2026

Die meisten Unternehmen können nicht sagen, wie schnell sie ein KI-System in einer Krise stoppen könnten – und viele könnten danach nicht erklären, was schiefgelaufen ist. KI-Technologie wird in europäischen Unternehmen in rasantem Tempo eingeführt, aber viele haben sie ohne die passende Governance- und Sicherheitsinfrastruktur implementiert. Das geht aus einer neuen Studie von ISACA…