Unabhängiger Test der Tolly-Group zeigt 38 Prozentpunkte Abstand von octonomy zu Microsoft Copilot bei identischem Basismodell
Erster Benchmark-Report »The State of Agentic AI Accuracy 2026” veröffentlicht

Das Kölner KI-Unternehmen octonomy veröffentlicht den ersten Benchmark-Report »The State of Agentic AI Accuracy 2026« [1]. Grundlage ist ein unabhängiger Test der Tolly Group vom März 2026, beauftragt von der octonomy AI GmbH (Tolly Report #226106). Auf Basis einer realen Industriedokumentation, mit mehr als 1.000 Seiten verglich die Tolly Group die Antwortgenauigkeit führender KI-Lösungen. octonomy erreicht 96 Prozent, Microsoft Copilot in der Direct Upload Variante 58 Prozent, ein führender KI-Chatbot 34 Prozent und Microsoft Copilot mit SharePoint-Anbindung 26 Prozent.

Architektur als entscheidender Faktor

octonomy und Microsoft Copilot griffen in der Testkonfiguration auf dasselbe Basismodell von Anthropic zurück. Trotzdem trennen beide Lösungen 38 Prozentpunkte in der Antwortgenauigkeit. Der Unterschied entsteht in der Verarbeitung visueller Informationen, in der Kontextzuordnung und im Umgang mit Unsicherheit. Nur octonomy verarbeitete das vollständige Dokument als einheitliche Wissensbasis. Microsoft Copilot und die übrigen getesteten Lösungen benötigten eine manuelle Vorsegmentierung in Kapitel-Dateien.

»Rund 40 Prozent des Unternehmenswissens liegen nicht als Text vor, sondern in Tabellen, Diagrammen, Schaltplänen und technischen Zeichnungen«, erklärt Oliver Trabert, CTO von octonomy. »Wer ausschließlich Text auswertet, kann daher keine belastbaren Antwortquoten erzielen. octonomys Visual Cortex erfasst die gesamte Dokumentinformation und liefert damit die Genauigkeit, die unternehmenskritische Prozesse voraussetzen.«

Marktbefund: Hohe Abbruchquote bei KI-Initiativen

Der Report ordnet zudem die Benchmark-Ergebnisse in den Marktkontext ein. Eine MIT-NANDA-Studie zeigt, dass lediglich fünf Prozent aller GenAI-Systeme den Produktivbetrieb erreichen. Laut S&P Global Voice of the Enterprise gehen 46 Prozent aller Proof-of-Concept-Projekte nie in den operativen Einsatz über. 42 Prozent der Unternehmen verwerfen inzwischen die Mehrheit ihrer KI-Initiativen, im Vorjahr lag dieser Wert noch bei 17 Prozent. Die Tolly Group identifiziert vier reproduzierbare Fehlermuster bei Standard-KI: übersehene visuelle Informationen, falsche Kontextzuordnung, fehlgeschlagene Interpolation aus Diagrammen und Halluzinationen unter Unsicherheit. Letztere bezeichnen die Tendenz von KI-Systemen, bei fehlender Information plausibel klingende, aber faktisch falsche Antworten zu erzeugen.

»Genauigkeit ist kein Merkmal auf einer Checkliste, sondern die Voraussetzung für alles, was ein KI-System leisten soll«, sagt Sushel Bijganath, CEO von octonomy. »Ein System, das 58 Prozent komplexer Fragen richtig beantwortet, spart keine Zeit. Es schafft eine neue Kategorie von Fehlern, die viel schwerer zu erkennen ist als die, die es eigentlich ersetzen sollte.«

Über octonomy:

octonomy ist die einzige KI-Plattform, die tiefes Expertenwissen mit Multi-Agenten-Ausführung verbindet. Gegründet 2024 von Sushel Bijganath und Oliver Trabert mit dem Anspruch, dass komplexes Fachwissen skalierbar sein muss, ohne an Genauigkeit zu verlieren. Führende Unternehmen aus Industrie, Maschinenbau oder Logistik setzen octonomy ein, um visuell komplexe Dokumentationen zu erschließen und wissensintensive Prozesse vollständig zu automatisieren, bei über 96 Prozent Antwortgenauigkeit. octonomy beschäftigt über 130 Mitarbeitende an Standorten in Köln, New York und Denver, wird von Capnamic, Macquarie Capital, NRW.BANK und Tech Visions Fonds unterstützt.

[1] https://www.octonomy.ai/ebooks/the-state-of-agentic-al-accuracy-2026/

187 Artikel zu „KI Hallu“

News | Effizienz | Favoriten der Redaktion | IT-Security | Künstliche Intelligenz | Strategien | Tipps

Keine Angst vor KI-Halluzinationen – mit den richtigen Vorkehrungen

12. November 2025

Agentic AI hat sich 2025 schnell zu einem der meistdiskutierten Begriffe im Bereich Cybersicherheit entwickelt. Doch was zeichnet Agentic AI nun konkret aus und welche Unterschiede bestehen zu einer grundlegenden Automatisierung oder zu verbesserten Assistenten? Experten für MXDR bringen Licht ins Dunkel. Für diejenigen, die Agentic AI effizient und zielführend im Bereich Security nutzen…