Jetzt 25 % Ticketrabatt für »manage it« Leser


Warum die Qualität der KI trotz steigender Adoption nicht Schritt hält

foto freepik ki

  • KI‑Adoption steigt – Qualität stagniert oder sinkt: Trotz breiter Einführung von KI‑Features scheitert über die Hälfte der KI‑Initiativen am Übergang in den produktiven Betrieb; Halluzinationen und Fehlinterpretationen nehmen wieder zu.

  • Teststrategien kommen nicht hinterher: Unternehmen setzen zwar stärker auf KI‑gestützte und menschliche Testmethoden, doch die Geschwindigkeit und Komplexität der KI‑Entwicklung überfordern klassische QA‑Prozesse.

  • Multimodale KI erhöht den Druck: Nutzer erwarten Text‑, Bild‑, Audio‑ und Video‑Fähigkeiten; QA‑Teams müssen ein viel breiteres Spektrum an Ausgaben und Grenzfällen bewerten.

  • Hybride Testmodelle werden unverzichtbar: Kombination aus KI‑Evaluierung, Automatisierung, menschlicher Validierung und „Golden Datasets“ wird zum neuen Standard, um Qualität probabilistischer Systeme zu sichern.

  • Menschliches Urteilsvermögen bleibt zentral: Nutzerfeedback, Usability und Barrierefreiheit sind entscheidend für Produktionsreife; rein automatisierte Tests reichen bei nicht‑deterministischen KI‑Systemen nicht aus.

 

Neuer Report zeigt: Halluzinationen nehmen zu, KI-Autonomie steigt und klassische QA gerät unter Druck.

 

Applause, Anbieter für Managed Software Testing und Digital Quality, veröffentlicht zum vierten Mal seinen jährlichen Report »State of Digital Quality in Testing AI« [1]. Dieser zeigt, dass sich die KI-Adoption in Unternehmen und bei Verbrauchern zwar beschleunigt, aber die Qualität der KI-Ergebnisse gleichzeitig nicht Schritt halten.

Auf Basis einer Befragung von mehr als 1.000 Entwicklerinnen und Entwickler sowie QA-Fachleuten und über 4.000 Verbraucher stellt der Report fest, dass 55 Prozent der Unternehmen bereits KI-gestützte Anwendungen und Features veröffentlicht haben. Dennoch scheitern mehr als die Hälfte aller KI-Initiativen daran, den vollen Produktionsbetrieb zu erreichen. Häufig aufgrund von Integrationsproblemen, Kostenbeschränkungen und Qualitätsrisiken. Diese Spannung spiegelt sich auch in der Nutzerstimmung wider. Während 40 Prozent angeben, dass KI-Tools die Produktivität um mehr als 75 Prozent steigern, nehmen gemeldete Qualitätsprobleme, wie Halluzinationen, falsch verstandene Prompts und unzuverlässige Ergebnisse, nach einem stetigen Rückgang in den vergangenen Jahren wieder zu.

Obwohl Unternehmen den Einsatz von KI-Testmethoden beschleunigen, bleibt die menschliche Bewertung weiterhin der am weitesten verbreitete Ansatz (61 Prozent). Gleichzeitig nutzen 33 Prozent LLM-as-Judge-Methoden, bei denen mehrere Modelle KI-Ausgaben parallel bewerten, um blinde Flecken aufzudecken. Trotz dieser kombinierten Ansätze hinken Teststrategien weiterhin der Geschwindigkeit und Komplexität der KI-Entwicklung hinterher. Für Unternehmen birgt diese Diskrepanz erhebliche Risiken für Kundenbindung, Umsatz und Reputation.

»KI-Entwicklung verlangsamt sich nicht, aber die Qualität nimmt ab«, sagt Chris Sheehan, EVP of High Tech and AI bei Applause. »Teams bringen KI in die Produktion, bevor sie wissen, wie sie diese richtig testen. Genau deshalb sehen wir mehr Fehler und mehr Risiken, die Nutzerinnen und Nutzer erreichen. KI bringt Geschwindigkeit und Skalierbarkeit, aber erst menschliche Bewertung schafft Vertrauen. Beides ist notwendig. Die Unternehmen, die es richtig machen, kombinieren KI und Domänen-Expertise, um ihre Systeme zu evaluieren und zu verfeinern, damit Ergebnisse relevanter, präziser und inklusiver werden.«

 

KI gelangt in die Produktion – doch viele Initiativen kommen ins Stocken

Die Skalierung von KI-Initiativen, darunter die beiden häufigsten Anwendungsfälle, Chatbots und Kundendienst-Tools, bleibt eine Herausforderung. Mehr als die Hälfte der Befragten gibt an, dass weniger als die Hälfte ihrer KI-Projekte den Weg vom Proof-of-Concept in den vollständigen Produktionsbetrieb schafft. Am häufigsten werden dafür Gründe wie Integrationskomplexität, Kostenbeschränkungen und Qualitätsrisiken genannt. Um diese Lücke zu schließen, setzen Teams auf eine Kombination aus KI-getriebenem und menschlich geführtem Testen:

  • Fine-Tuning mit menschlich generierten Daten (54 Prozent) und synthetischen Daten (29 Prozent)
  • Menschlich geführtes (39 Prozent) und automatisiertes (23 Prozent) Red Teaming
  • KI-first-Testagenten (30 Prozent) und Human-in-the-Loop-Monitoring (31 Prozent)

 

Qualitätsprobleme steigen trotz wachsender KI-Nutzung

Trotz starker Akzeptanz und grundsätzlich positiver Stimmung stoßen Nutzer:innen zunehmend auf Probleme mit KI:

  • 46 Prozent sagen, KI hat ihre Prompts falsch verstanden
  • 40 Prozent berichten von Halluzinationen (2025: 32 Prozent)
  • 41 Prozent bemängeln fehlende Detailtiefe in den Antworten

 

Multimodale KI stellt neue Anforderungen ans Testen

Mit dem Ausbau der KI-Fähigkeiten entwickeln sich auch die Erwartungen der Nutzer:innen rasant weiter. 84 Prozent der Nutzer:innen generativer KI bezeichnen multimodale Funktionalität – also die Fähigkeit, Text, Bilder, Audio und Video zu verarbeiten und zu generieren – als unverzichtbar. Diese Entwicklung setzt QA-Teams unter Druck, ein breiteres Spektrum an Ausgaben und Grenzfällen im Unternehmensmaßstab zu testen.

»Beim Testen von KI geht es nicht nur um Genauigkeit, sondern darum, komplexe, multimodale Ausgaben in großem Maßstab zu bewerten«, sagt Chris Munroe, VP of AI Programs bei Applause. »LLM-as-Judge-Systeme werden dabei zu einem wichtigen Bestandteil – aber sie können nicht isoliert funktionieren. Ohne menschliche Aufsicht besteht das Risiko, dieselben blinden Flecken zu verstärken, die man eigentlich erkennen will. Neben menschlich geführten Evaluierungen und Fine-Tuning ist strukturiertes Red Teaming durch Domänenexpert:innen und Generalisten unverzichtbar. Genauso wichtig, ist eine konsequente Evaluierungsstrenge. Ohne sie riskieren Organisationen, Systeme zu skalieren, die sie nicht vollständig verstehen oder kontrollieren.«

 

Ein neues Testmodell ist gefragt: KI und menschliche Bewertung

KI zwingt Unternehmen dazu, neu zu definieren, wie Qualität gemessen und validiert wird. Anders als traditionelle Software ist KI probabilistisch und nicht-deterministisch. Daher reichen konventionelle Testmethoden allein nicht mehr aus. Unternehmen setzen stattdessen zunehmend auf hybride Testmodelle, die KI-gestützte Evaluierung, Automatisierung und menschliche Validierung kombinieren. Ein wesentlicher Vorteil dieses Ansatzes ist die Erstellung sogenannter »Golden Datasets«, also wiederverwendbare, hochwertige Benchmarks, die fortlaufendes Regressionstesting und kontinuierliche Verbesserung unterstützen.

Menschliches Urteilsvermögen bleibt trotzdem zentral im KI-QA-Prozess. Für fast die Hälfte der Unternehmen (46 Prozent) sind Nutzerfeedback und Usability die primären Faktoren bei der Entscheidung, ob ein KI-Feature produktionsreif ist.

Gleichzeitig investieren Unternehmen in Barrierefreiheit und inklusive Testpraktiken. Knapp drei Viertel der KI-Entwickler:innen setzen beim Testen von Barrierefreiheit auf Crowdtesting, das durch automatisierte Tools und KI-Agenten ergänzt wird. Dennoch testen 10 Prozent der Unternehmen KI-Systeme überhaupt nicht auf Barrierefreiheit.

Je komplexer und nicht-deterministischer KI-Systeme werden, desto weniger lässt sich Qualität allein durch Automatisierung validieren. Stattdessen braucht es eine Kombination aus KI, Automatisierung und realem menschlichen Urteilsvermögen.

 

[1] Der 2026 State of Digital Quality in Testing AI basiert auf einer Befragung von mehr als 1.000 Entwickler:innen, QA-Fachleuten und Verbraucher:innen sowie auf Analysen von Testplattform-Daten und Interviews mit Applause-Kunden und internen Expert:innen. Der vollständige Report ist verfügbar unter: https://www.applause.com/state-of-digital-quality-2026/

 

4196 Artikel zu „KI Qualität“

Strategisches Datenkapital: Wie KI Qualität und Management revolutioniert

In einer zunehmend datengetriebenen Wirtschaft stellt die Qualität von Informationen einen kritischen Erfolgsfaktor dar. Angesichts des exponentiellen Wachstums von Daten mit Blick auf Umfang, Vielfalt sowie Geschwindigkeit erkennen Unternehmen, dass Präzision, Konsistenz und Verlässlichkeit ihrer Datenbestände nicht länger ein Nice-to-Have, sondern ein unverzichtbarer Wettbewerbsvorteil sind.   Minderwertige Daten führen zu oftmals gravierenden Fehlentscheidungen, operativer Unwirtschaftlichkeit…

KI-Rausch und Qualitäts-Kater

Unternehmen investieren Milliarden in generative KI für die Code-Entwicklung. Doch wer investiert in das intelligente Gegengewicht, das für die nötige Stabilität sorgt? Ein Expertenkommentar von Roman Zednik, Field CTO bei Tricentis, der die vergessene zweite Hälfte einer erfolgreichen KI-Strategie beleuchtet – und zeigt, warum der alleinige Fokus auf Entwicklerproduktivität gefährlich kurzsichtig ist.   »Ein historischer…

Die wichtigsten Trends im Online Marketing: Warum es 2026 auf Datenqualität, Automatisierung und KI ankommt

Künstliche Intelligenz 2026 steigert die Performance und Werbetreibende profitieren von diesem Effizienzschub 2026 prägen hybride Sucharchitekturen, Automatisierung, KI-getriebene Kreativität und mediale Ausspielung sowie die Verschmelzung von Social Media und Commerce die Werbelandschaft. Executive Board Member Jan Honsel fasst zusammen: »Effizienz, Datenqualität und kreative Präzision werden zur neuen Währung des Marketings.«   Zum Jahreswechsel veröffentlicht die…

Die Top Software & Testing Trends für 2026: Wie verändert KI Entwicklung und Qualitätssicherung?

Künstliche Intelligenz wird 2026 zum dominierenden Thema in der Software-Entwicklung und Qualitätssicherung. Nachdem Unternehmen erste Erfahrungen gesammelt haben, suchen sie jetzt nach Möglichkeiten, um wirkliche Kosten- und Produktivitätsvorteile zu erzielen. Roman Zednik, Field CTO bei Tricentis, zeigt, wo im kommenden Jahr die größten Potenziale liegen und warum menschliche Kontrolle unverzichtbar ist.   Risikobasiertes Testing löst…

Prüfbare KI-Qualität: MISSION KI präsentiert Qualitätsstandard und digitales Prüfportal für Niedrigrisiko-KI

Der VDE hat sich an dem Projekt MISSION KI – Nationale Initiative für Künstliche Intelligenz und Datenökonomie beteiligt. Entstanden sind ein Qualitätsstandard und ein Portal für die strukturierte Bewertung der Qualität von KI-Systemen, die sich unterhalb der Hochrisikoschwelle befinden.   Die Partner des Projekts MISSION KI – Nationale Initiative für Künstliche Intelligenz und Datenökonomie haben…

Vier GenAI-Qualitätskiller: Vertraue keiner KI

Ohne echte Qualitätssicherung für die Nutzung generativer KI steht der Menschheit eine Dystopie ins Haus. Solange sie nicht existiert, sind die Nutzer in der Pflicht, die Gefahren von GenAI zu kennen und die Technologie verantwortungsvoll einzusetzen. Was sind die vier gefährlichsten Qualitätskiller im beginnenden KI-Zeitalter?   Die Leistung und die Zuverlässigkeit von KI-Assistenten nehmen gefühlt…

KI, Cloud und Datenqualität werden zum Dreh- und Angelpunkt erfolgreicher Digitalisierung

57 Prozent der Unternehmen nennen neue Technologien, vor allem künstliche Intelligenz, als Haupttreiber ihrer IT-Transformation. Technik allein reicht nicht: Digitale Transformation gelingt mit Teamwork, Erfahrung, Agilität und Datenschutz. 47 Prozent sehen zum vierten Mal in Folge schlechte Datenqualität als Transformationshindernis Nummer Eins. Unternehmen wollen durch Transformation innovationsfähig bleiben – und deshalb häufiger Cloud-Dienste einsetzen.  …

Deutschland übertrifft Europa bei GenAI-Investitionen und ROI mit KI-Einsatz in Prozessoptimierung, Cybersicherheit und Qualitätskontrolle

Eine globale Studie zeigt, dass deutsche Hersteller trotz Herausforderungen bei der Personalentwicklung und Datennutzung die höchsten GenAI-Renditen in Europa erzielen.   Rockwell Automation, das Unternehmen für industrielle Automatisierung und digitale Transformation, hat die deutschen Ergebnisse seines 10. jährlichen Berichts zur intelligenten Fertigung vorgestellt [1]. Die Daten zeigen, dass der Fertigungssektor erhebliche Investitionen und Erträge in…

KI-Agenten: Es fehlt an Datenqualität, Governance und Qualifikation

Die aktuelle BARC-Studie »Preparing and Delivering Data for AI: Adoption Trends, Requirements, and Best Practices« zeigt: Unternehmen setzen zunehmend auf KI – fast ein Drittel nutzt bereits KI-Agenten produktiv [1]. Doch fehlende Strukturen in der Governance, unzureichender Fokus auf Datenqualität und mangelnde KI-Kompetenzen gefährden den langfristigen Erfolg.   Die Befragten stammen aus aller Welt, mit…

KI als Gamechanger im Dokumenten- und Qualitätsmanagement – Fabasoft Approve: Computer-Aided Quality aus der Cloud

Der Einsatz von KI in den verschiedenen Unternehmensbereichen und die Vernetzung unterschiedlicher Technologieplattformen zum organisationsübergreifenden Datenaustausch werden im Jahr 2025 zu einem zentralen Erfolgsfaktor. Integrierte „Retrieval Augmented Generation“ (RAG)-Systeme und die zunehmende Nutzung von Multi-Cloud-Architekturen spielen eine wesentliche Rolle bei der digitalen Transformation.

Mit KI zu besserer Softwarequalität

Tricentis bietet Kunden mit seiner Copilot Suite eine Sammlung KI-gestützter Assistenten, die Qualitätssicherungs- und Entwicklungsteams in verschiedenen Phasen des Testprozesses unterstützen.   Die Anforderungen an moderne Softwareentwicklung steigen rasant: Anwendungen werden immer komplexer, während sich die Release-Zyklen zunehmend verkürzen. Qualität und Effizienz dürfen dabei nicht auf der Strecke bleiben. Tricentis, ein führender Anbieter von Continuous…

USU KAI – intelligenter KI-Assistent setzt neue Maßstäbe für Qualität und Effizienz im Kundenservice

Die USU-Gruppe hat ihren neuen KI-Assistenten KAI vorgestellt, der die Effizienz und Qualität im Kundenservice maßgeblich verbessern soll. Der neue Assistent ist Teil des USU Knowledge Management Systems. Mit einem besonderen Fokus auf Präzision, Konsistenz und Anpassungsfähigkeit setzt KAI neue Maßstäbe in der Anwendung von künstlicher Intelligenz im Kundenservice. Details werden in einem neuen, kostenfrei…

KI-Wissen und Führungsqualitäten entscheidend für mehr Vertrauen und Leistung

Mitarbeitende sehen künstliche Intelligenz, maschinelles Lernen sowie die Förderung von Führungsqualitäten als ihre größten Qualifikationslücken. Nur jeder fünfte Mitarbeitende in Deutschland bewertet die Talententwicklungsprogramme ihres Unternehmens als hochwirksam. Mitarbeitende wünschen sich mehr Zeit, neue interaktive Lernformate und mehr Unterstützung durch die Führungskräfte, um ihren Weiterbildungsbedarf zu decken.   Skillsoft, eine Plattform für transformative Lernerfahrungen, hat…

»KI ist kein Qualitätsmerkmal«: Das Thema wird im Marketing gehypt

ChatGPT und andere Tools haben einen Hype um das Thema KI ausgelöst. Die Werbeversprechen in Sachen künstliche Intelligenz sind inzwischen allgegenwärtig. Überall ist KI drin, dran oder zumindest beteiligt. KI ist zum Marketingrenner geworden. Dabei ist KI aber keineswegs ein Qualitätsmerkmal. Zwar ist es gut, dass durch ChatGPT und Co. das Thema nun große Aufmerksamkeit…

KI als Booster für Effizienz und Qualität im Prozessmanagement

Wie künstliche Intelligenz das Leistungsspektrum von BPM erweitert.   Künstliche Intelligenz (KI) gilt als eine der Schlüsseltechnologien im Zeitalter der Industrie 4.0 und besitzt das Potenzial, über die künftige Wettbewerbsfähigkeit von Unternehmen zu entscheiden. Unter anderem ermöglicht sie eine effizientere Produktion und eine gezieltere, individualisierte Bereitstellung von Produkten und Dienstleistungen, was wiederum zu gänzlich neuen…

Neuer Leitfaden für das Qualitätsmanagement bei der Entwicklung von KI-Lösungen und -Anwendungen

Die Begleitforschung des Innovationswettbewerbs »Künstliche Intelligenz als Treiber für volkswirtschaftlich relevante Ökosysteme« (KI-Innovationswettbewerb) hat einen neuen Leitfaden für das Qualitätsmanagement bei der Entwicklung von KI-Lösungen und -Anwendungen veröffentlicht. Der Leitfaden bietet eine umfassende Orientierungshilfe für KI-Entwickelnde, um Anwendungen auf Umsetzbarkeit zu überprüfen. Anforderungen wie die Marktchancen oder die Erfüllung gesetzlicher Richtlinien stehen dabei ebenso im…

»Human in the Loop« verwandelt KI in einen steuerbaren Schlüsselfaktor

Eine aktuelle Studie des Branchenverbands Bitkom zeigt, dass viele Nutzer dem Einsatz von KI weiterhin skeptisch gegenüberstehen [1]. Zugleich verbindet sich mit der Technologie das Risiko sogenannter Halluzinationen und fehlerhafter Ergebnisse. Der Ansatz »Human in the Loop« minimiert diese Vorbehalte und Risiken weitgehend durch Kontrolle der Ergebnisse und Training von KI-Modellen, wie Thomas Uber, Geschäftsführer…

Cyberrisiko Digitalisierung und KI – warum Identitäten zum zentralen Sicherheitsfaktor in Kliniken werden

Statement zur DMEA 2026 von Olaf Milde, Manager Solutions Engineering Central Europe bei Imprivata   Mit der wachsenden digitalen Vernetzung der Akteure im Gesundheitswesen und dem Einsatz von KI-Agenten steigt auch die Angriffsfläche für Cyberkriminelle. Krankenhäuser gelten heute als besonders attraktive Ziele für Angreifer: Sie verarbeiten hochsensible Patientendaten, betreiben komplexe IT-Infrastrukturen und sind gleichzeitig auf…

Nicht das KI-Modell ist kaputt, sondern eure Plattform

Warum KI‑Produktion kein Modell‑, sondern ein Betriebsproblem ist und was nötig ist, damit aus KI-Demos tatsächlich KI-Produktion wird.   Auf der kürzlich zu Ende gegangenen KubeCon EU 2026 hatte jeder große Anbieter etwas zum Thema KI auf Kubernetes anzukündigen. IBM, Red Hat und Google stellten »llm-d« zur Optimierung der verteilten Inferenz zur Verfügung. Microsoft brachte…