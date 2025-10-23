Studie zeigt auf, warum Mensch und Maschine noch kein gutes Team sind.

Die Technische Universität Berlin hat in einem neuen Positionspapier ein unbequemes Ergebnis zusammengefasst: Mensch-KI-Teams treffen oft schlechtere Entscheidungen als die KI allein. Was paradox klingt, zeigt sich in vielen Feldern wie Radiologie, Sicherheitstechnik oder Prozessüberwachung. Je zuverlässiger die Systeme, desto größer die Gefahr, dass Menschen die korrekten Empfehlungen der KI überstimmen oder ignorieren.

Die Ursachen sind vielfältig, zwei aber stechen heraus. Erstens: Menschen wollen ihrer Rolle als Entscheiderinnen und Entscheider gerecht werden. Wer nur abnickt, fühlt sich überflüssig und greift ein, auch wenn das System recht hat. Zweitens: Die Zuverlässigkeit moderner KI wird unterschätzt. Seltene Fehler erscheinen überbewertet, während die hohe Gesamtleistung kaum wahrgenommen wird. So entsteht ein Muster, das die Autorinnen und Autoren der TU Berlin in zahlreichen Studien beobachten: »Menschen greifen unnötig ein und verschlimmbessern so die Gesamtleistung«, sagt Dr. Tobias Rieger, Psychologe am Fachgebiet Handlungs- und Automationspsychologie der TU Berlin und Erstautor des Positionspapiers. So überschreiben Radiologen korrekte Befunde, weil sie ihrer Rolle als finale Entscheider gerecht werden wollen. Und am Flughafen entscheiden Gepäckscreener zwar besser mit KI-Assistenz, jedoch häufig auch nicht so gut wie das System allein.

Konflikt mit EU-Regulierung

Brisant ist das auch mit Blick auf das EU Gesetz zur Regulierung von KI (AI Act). Dieser fordert »wirksame menschliche Aufsicht« für Hochrisikoanwendungen. Doch wie soll ein Radiologe oder eine Personalabteilung Verantwortung übernehmen, wenn die Maschine statistisch klar überlegen ist? Wenn Menschen systematisch schlechter entscheiden als die KI, stellt sich die Frage, wie Aufsicht in der Praxis gestaltet werden kann, ohne die Gesamtleistung zu verschlechtern.

Erklärbare KI als Schlüssel

Welche Lösungen sind denkbar? Ein Weg ist laut den Forschern mehr Transparenz. Doch klassische Ansätze der »erklärbaren KI« reichten nicht: Zu wissen, was ein tiefes neuronales Netzwerk ist, nützt der Radiologin wenig. Stattdessen müsse es um verhaltensleitende Erklärungen gehen. Systeme sollten ihre Stärken und Schwächen klar kommunizieren, zum Beispiel: »Bei dieser Patientengruppe ist meine Prognose für eine Krebserkrankung besonders zuverlässig.« So wüssten Nutzer, wann Zustimmung angebracht ist und wann sich ein kritischer Blick lohnt.

Auf dem Weg zur Synergie

Noch weiter reichen adaptive Konzepte. Die Maschine könnte lernen, wo der Mensch stark ist und ihm in diesen Fällen die Entscheidung überlassen. Umgekehrt könnte sie nur bei Unsicherheiten Empfehlungen geben. »Das Ziel ist eine echte Synergie, in der Mensch und Maschine sich sinnvoll ergänzen. Dafür gibt es keine One-Size-Fits-All-Lösung, sondern es braucht maßgeschneiderte Ansätze für unterschiedliche Anwendungsfelder«, betont Rieger. Deswegen sollten die späteren Nutzer einer KI bereits in ihre Entwicklung mit eingebunden werden.

Bis dahin ist es ein weiter Weg. Doch das Positionspapier macht deutlich: Der Schlüssel liegt nicht darin, Menschen aus dem Prozess zu drängen, sondern Systeme so zu gestalten, dass beide Partner*innen einander ergänzen. Erst dann können Mensch und KI gemeinsam tatsächlich bessere Entscheidungen treffen.

Weitere Ergebnisse finden Sie im Positionspapier: https://ieeexplore.ieee.org/abstract/document/11111703

Wie können Mensch und KI gemeinsam bessere Entscheidungen treffen?

Mensch und KI treffen bessere Entscheidungen, wenn Systeme so gestaltet sind, dass sie menschliches Urteilsvermögen ergänzen statt ersetzen, verlässliche, handlungsleitende Erklärungen liefern und Verantwortung, Kompetenz und Kontext klar verteilen.

Grundprinzipien

Adequate Dependence:

Entscheidungen müssen so gestaltet sein, dass die gemeinsame Leistung von Mensch und KI über der Leistung beider allein liegt.

Behavioural Explainability:

Erklärungen müssen das Verhalten der Nutzenden steuern können, nicht nur Modellinternas offenlegen.

Unkorrelierte Fehlerquellen:

Mensch und KI sollten unterschiedliche Stärken und Schwächen haben, damit Fehler des einen durch den anderen kompensiert werden können.

Kontextadaptive Automation:

Die Entscheidungshoheit wird dynamisch je nach Unsicherheit, Last und rechtlichen Anforderungen verteilt.

Praktische Maßnahmen für Organisationen

Fallbasierte Vertrauenssignale einführen Implementiere Likelihood- oder Warnstufen für einzelne Empfehlungen, sodass klare Regeln entstehen, wann der Mensch prüfen muss und wann automatische Akzeptanz möglich ist. Stärken- und Schwächenprofil veröffentlichen Dokumentiere, für welche Szenarien die KI stark oder schwach ist und mache diese Informationen für Entscheidungsträger nutzbar. Adaptive Funktionsallokation umsetzen Schalte die KI in Vollautomatik bei hoher Konfidenz und lasse Menschen nur die verbleibenden, unsicheren Fälle entscheiden. Interface für verhaltenssteuernde Erklärungen designen Zeige knapp: Konfidenz, wichtigste Gründe für die Empfehlung, typische Fehlermodi und konkrete Handlungsanweisungen für den Menschen. Kontinuierliches Benchmarking und Monitoring etablieren Überwache KI-Leistung im Feld, aktualisiere Schwächenprofile und passe Warnschwellen an veränderte Datenverteilungen. Rollendefinition und Verantwortungsregeln klären Lege fest, wer finale Entscheidungen trifft, welche Interventionen erlaubt sind und wie Audit-Trails geführt werden. Training und Entscheidungs-Workshops für Anwender Übe mit realistischen Fehlerfällen, um Rollenwahrnehmung und angemessene Abhängigkeit zu kalibrieren. Metriken und KPIs verankern Miss nicht nur KI-Accuracy, sondern Joint-Performance, Interventionsrate, False-Override-Rate und Outcome-Impact.

Konkreter Entscheidungsablauf für eine Empfehlung

Schritt 1 Eingangsprüfung

System liefert Empfehlung plus Konfidenzscore und Warnstufe.

Schritt 2 Automatische vs. manuelle Entscheidung

Wenn Konfidenz > definierter Schwellenwert, akzeptiere automatisch; logge Entscheidung und Outcome.

Wenn Konfidenz ≤ Schwellenwert, leite an zuständige Person weiter mit kompakten Erklärungspunkten.

Schritt 3 Menschliche Überprüfung

Prüfer vergleicht Systemgründe mit eigenem Befund; trifft Entscheidung und dokumentiert Abweichung plus Begründung.

Schritt 4 Lernen und Anpassung

Jede Abweichung fließt in Monitoring, Benchmarks und Anpassung der Schwellenwerte ein.

KPIs zur Messung von Mensch‑KI‑Synergie

Joint Accuracy:

Performance Mensch+KI verglichen mit KI allein und Mensch allein.

Override Benefit Rate:

Anteil menschlicher Overrides, die das Outcome verbessert haben.

False Override Rate:

Anteil Overrides, die Leistung verschlechtert haben.

Automation Utilization:

Anteil der Fälle, die ohne menschliches Zutun sinnvoll entschieden wurden.

Time to Decision:

Durchschnittliche Zeit bis zur finalen Entscheidung.

Audit Traceability:

Vollständigkeit und Nutzbarkeit der Entscheidungsprotokolle.

Governance und Compliance

Sorge für klar dokumentierte OVO-Regeln (Operate, Verify, Override) und Audit‑Prozesse.

Behalte Final‑Human‑Oversight dort, wo es rechtlich oder ethisch vorgeschrieben ist, und definiere transparente Kriterien, wann Full‑Automation zulässig ist.

Kurze Implementierungsprioritäten für die nächsten 90 Tage

Definiere 2–3 kritische Use Cases und Messtechniken für Joint Performance. Führe Fallbasierte Konfidenz-Anzeigen im UI ein. Erstelle Stärken/Schwächen-Profile basierend auf vorhandenen Benchmarks. Starte ein Monitoring-Dashboard mit den genannten KPIs.

Albert Absmeier & KI

Quellen

Forschung zu Mensch‑KI Entscheidungsdynamiken, Explainability und Adequate Dependence.

ieeexplore.ieee.org

