foto freepik ki

KI‑Adoption steigt – Qualität stagniert oder sinkt: Trotz breiter Einführung von KI‑Features scheitert über die Hälfte der KI‑Initiativen am Übergang in den produktiven Betrieb; Halluzinationen und Fehlinterpretationen nehmen wieder zu.
Teststrategien kommen nicht hinterher: Unternehmen setzen zwar stärker auf KI‑gestützte und menschliche Testmethoden, doch die Geschwindigkeit und Komplexität der KI‑Entwicklung überfordern klassische QA‑Prozesse.
Multimodale KI erhöht den Druck: Nutzer erwarten Text‑, Bild‑, Audio‑ und Video‑Fähigkeiten; QA‑Teams müssen ein viel breiteres Spektrum an Ausgaben und Grenzfällen bewerten.
Hybride Testmodelle werden unverzichtbar: Kombination aus KI‑Evaluierung, Automatisierung, menschlicher Validierung und „Golden Datasets“ wird zum neuen Standard, um Qualität probabilistischer Systeme zu sichern.
Menschliches Urteilsvermögen bleibt zentral: Nutzerfeedback, Usability und Barrierefreiheit sind entscheidend für Produktionsreife; rein automatisierte Tests reichen bei nicht‑deterministischen KI‑Systemen nicht aus.

Neuer Report zeigt: Halluzinationen nehmen zu, KI-Autonomie steigt und klassische QA gerät unter Druck.

Applause, Anbieter für Managed Software Testing und Digital Quality, veröffentlicht zum vierten Mal seinen jährlichen Report »State of Digital Quality in Testing AI« [1]. Dieser zeigt, dass sich die KI-Adoption in Unternehmen und bei Verbrauchern zwar beschleunigt, aber die Qualität der KI-Ergebnisse gleichzeitig nicht Schritt halten.

Auf Basis einer Befragung von mehr als 1.000 Entwicklerinnen und Entwickler sowie QA-Fachleuten und über 4.000 Verbraucher stellt der Report fest, dass 55 Prozent der Unternehmen bereits KI-gestützte Anwendungen und Features veröffentlicht haben. Dennoch scheitern mehr als die Hälfte aller KI-Initiativen daran, den vollen Produktionsbetrieb zu erreichen. Häufig aufgrund von Integrationsproblemen, Kostenbeschränkungen und Qualitätsrisiken. Diese Spannung spiegelt sich auch in der Nutzerstimmung wider. Während 40 Prozent angeben, dass KI-Tools die Produktivität um mehr als 75 Prozent steigern, nehmen gemeldete Qualitätsprobleme, wie Halluzinationen, falsch verstandene Prompts und unzuverlässige Ergebnisse, nach einem stetigen Rückgang in den vergangenen Jahren wieder zu.

Obwohl Unternehmen den Einsatz von KI-Testmethoden beschleunigen, bleibt die menschliche Bewertung weiterhin der am weitesten verbreitete Ansatz (61 Prozent). Gleichzeitig nutzen 33 Prozent LLM-as-Judge-Methoden, bei denen mehrere Modelle KI-Ausgaben parallel bewerten, um blinde Flecken aufzudecken. Trotz dieser kombinierten Ansätze hinken Teststrategien weiterhin der Geschwindigkeit und Komplexität der KI-Entwicklung hinterher. Für Unternehmen birgt diese Diskrepanz erhebliche Risiken für Kundenbindung, Umsatz und Reputation.

»KI-Entwicklung verlangsamt sich nicht, aber die Qualität nimmt ab«, sagt Chris Sheehan, EVP of High Tech and AI bei Applause. »Teams bringen KI in die Produktion, bevor sie wissen, wie sie diese richtig testen. Genau deshalb sehen wir mehr Fehler und mehr Risiken, die Nutzerinnen und Nutzer erreichen. KI bringt Geschwindigkeit und Skalierbarkeit, aber erst menschliche Bewertung schafft Vertrauen. Beides ist notwendig. Die Unternehmen, die es richtig machen, kombinieren KI und Domänen-Expertise, um ihre Systeme zu evaluieren und zu verfeinern, damit Ergebnisse relevanter, präziser und inklusiver werden.«

KI gelangt in die Produktion – doch viele Initiativen kommen ins Stocken

Die Skalierung von KI-Initiativen, darunter die beiden häufigsten Anwendungsfälle, Chatbots und Kundendienst-Tools, bleibt eine Herausforderung. Mehr als die Hälfte der Befragten gibt an, dass weniger als die Hälfte ihrer KI-Projekte den Weg vom Proof-of-Concept in den vollständigen Produktionsbetrieb schafft. Am häufigsten werden dafür Gründe wie Integrationskomplexität, Kostenbeschränkungen und Qualitätsrisiken genannt. Um diese Lücke zu schließen, setzen Teams auf eine Kombination aus KI-getriebenem und menschlich geführtem Testen:

Fine-Tuning mit menschlich generierten Daten (54 Prozent) und synthetischen Daten (29 Prozent)
Menschlich geführtes (39 Prozent) und automatisiertes (23 Prozent) Red Teaming
KI-first-Testagenten (30 Prozent) und Human-in-the-Loop-Monitoring (31 Prozent)

Qualitätsprobleme steigen trotz wachsender KI-Nutzung

Trotz starker Akzeptanz und grundsätzlich positiver Stimmung stoßen Nutzer:innen zunehmend auf Probleme mit KI:

46 Prozent sagen, KI hat ihre Prompts falsch verstanden
40 Prozent berichten von Halluzinationen (2025: 32 Prozent)
41 Prozent bemängeln fehlende Detailtiefe in den Antworten

Multimodale KI stellt neue Anforderungen ans Testen

Mit dem Ausbau der KI-Fähigkeiten entwickeln sich auch die Erwartungen der Nutzer:innen rasant weiter. 84 Prozent der Nutzer:innen generativer KI bezeichnen multimodale Funktionalität – also die Fähigkeit, Text, Bilder, Audio und Video zu verarbeiten und zu generieren – als unverzichtbar. Diese Entwicklung setzt QA-Teams unter Druck, ein breiteres Spektrum an Ausgaben und Grenzfällen im Unternehmensmaßstab zu testen.

»Beim Testen von KI geht es nicht nur um Genauigkeit, sondern darum, komplexe, multimodale Ausgaben in großem Maßstab zu bewerten«, sagt Chris Munroe, VP of AI Programs bei Applause. »LLM-as-Judge-Systeme werden dabei zu einem wichtigen Bestandteil – aber sie können nicht isoliert funktionieren. Ohne menschliche Aufsicht besteht das Risiko, dieselben blinden Flecken zu verstärken, die man eigentlich erkennen will. Neben menschlich geführten Evaluierungen und Fine-Tuning ist strukturiertes Red Teaming durch Domänenexpert:innen und Generalisten unverzichtbar. Genauso wichtig, ist eine konsequente Evaluierungsstrenge. Ohne sie riskieren Organisationen, Systeme zu skalieren, die sie nicht vollständig verstehen oder kontrollieren.«

Ein neues Testmodell ist gefragt: KI und menschliche Bewertung

KI zwingt Unternehmen dazu, neu zu definieren, wie Qualität gemessen und validiert wird. Anders als traditionelle Software ist KI probabilistisch und nicht-deterministisch. Daher reichen konventionelle Testmethoden allein nicht mehr aus. Unternehmen setzen stattdessen zunehmend auf hybride Testmodelle, die KI-gestützte Evaluierung, Automatisierung und menschliche Validierung kombinieren. Ein wesentlicher Vorteil dieses Ansatzes ist die Erstellung sogenannter »Golden Datasets«, also wiederverwendbare, hochwertige Benchmarks, die fortlaufendes Regressionstesting und kontinuierliche Verbesserung unterstützen.

Menschliches Urteilsvermögen bleibt trotzdem zentral im KI-QA-Prozess. Für fast die Hälfte der Unternehmen (46 Prozent) sind Nutzerfeedback und Usability die primären Faktoren bei der Entscheidung, ob ein KI-Feature produktionsreif ist.

Gleichzeitig investieren Unternehmen in Barrierefreiheit und inklusive Testpraktiken. Knapp drei Viertel der KI-Entwickler:innen setzen beim Testen von Barrierefreiheit auf Crowdtesting, das durch automatisierte Tools und KI-Agenten ergänzt wird. Dennoch testen 10 Prozent der Unternehmen KI-Systeme überhaupt nicht auf Barrierefreiheit.

Je komplexer und nicht-deterministischer KI-Systeme werden, desto weniger lässt sich Qualität allein durch Automatisierung validieren. Stattdessen braucht es eine Kombination aus KI, Automatisierung und realem menschlichen Urteilsvermögen.

[1] Der 2026 State of Digital Quality in Testing AI basiert auf einer Befragung von mehr als 1.000 Entwickler:innen, QA-Fachleuten und Verbraucher:innen sowie auf Analysen von Testplattform-Daten und Interviews mit Applause-Kunden und internen Expert:innen. Der vollständige Report ist verfügbar unter: https://www.applause.com/state-of-digital-quality-2026/

4196 Artikel zu „KI Qualität“

News | Business | Business Process Management | Digitalisierung | Favoriten der Redaktion | Geschäftsprozesse | Künstliche Intelligenz | Services

Strategisches Datenkapital: Wie KI Qualität und Management revolutioniert

4. August 2025

In einer zunehmend datengetriebenen Wirtschaft stellt die Qualität von Informationen einen kritischen Erfolgsfaktor dar. Angesichts des exponentiellen Wachstums von Daten mit Blick auf Umfang, Vielfalt sowie Geschwindigkeit erkennen Unternehmen, dass Präzision, Konsistenz und Verlässlichkeit ihrer Datenbestände nicht länger ein Nice-to-Have, sondern ein unverzichtbarer Wettbewerbsvorteil sind. Minderwertige Daten führen zu oftmals gravierenden Fehlentscheidungen, operativer Unwirtschaftlichkeit…