KI Genauigkeit im Test: Kölner KI-Unternehmen octonomy schlägt Microsoft Copilot deutlich

(c) octonomy

  • Unabhängiger Test der Tolly-Group zeigt 38 Prozentpunkte Abstand von octonomy zu Microsoft Copilot bei identischem Basismodell
  • Erster Benchmark-Report »The State of Agentic AI Accuracy 2026” veröffentlicht

Das Kölner KI-Unternehmen octonomy veröffentlicht den ersten Benchmark-Report »The State of Agentic AI Accuracy 2026« [1]. Grundlage ist ein unabhängiger Test der Tolly Group vom März 2026, beauftragt von der octonomy AI GmbH (Tolly Report #226106). Auf Basis einer realen Industriedokumentation, mit mehr als 1.000 Seiten verglich die Tolly Group die Antwortgenauigkeit führender KI-Lösungen. octonomy erreicht 96 Prozent, Microsoft Copilot in der Direct Upload Variante 58 Prozent, ein führender KI-Chatbot 34 Prozent und Microsoft Copilot mit SharePoint-Anbindung 26 Prozent.

Architektur als entscheidender Faktor

octonomy und Microsoft Copilot griffen in der Testkonfiguration auf dasselbe Basismodell von Anthropic zurück. Trotzdem trennen beide Lösungen 38 Prozentpunkte in der Antwortgenauigkeit. Der Unterschied entsteht in der Verarbeitung visueller Informationen, in der Kontextzuordnung und im Umgang mit Unsicherheit. Nur octonomy verarbeitete das vollständige Dokument als einheitliche Wissensbasis. Microsoft Copilot und die übrigen getesteten Lösungen benötigten eine manuelle Vorsegmentierung in Kapitel-Dateien.

»Rund 40 Prozent des Unternehmenswissens liegen nicht als Text vor, sondern in Tabellen, Diagrammen, Schaltplänen und technischen Zeichnungen«, erklärt Oliver Trabert, CTO von octonomy. »Wer ausschließlich Text auswertet, kann daher keine belastbaren Antwortquoten erzielen. octonomys Visual Cortex erfasst die gesamte Dokumentinformation und liefert damit die Genauigkeit, die unternehmenskritische Prozesse voraussetzen.«

Marktbefund: Hohe Abbruchquote bei KI-Initiativen

Der Report ordnet zudem die Benchmark-Ergebnisse in den Marktkontext ein. Eine MIT-NANDA-Studie zeigt, dass lediglich fünf Prozent aller GenAI-Systeme den Produktivbetrieb erreichen. Laut S&P Global Voice of the Enterprise gehen 46 Prozent aller Proof-of-Concept-Projekte nie in den operativen Einsatz über. 42 Prozent der Unternehmen verwerfen inzwischen die Mehrheit ihrer KI-Initiativen, im Vorjahr lag dieser Wert noch bei 17 Prozent. Die Tolly Group identifiziert vier reproduzierbare Fehlermuster bei Standard-KI: übersehene visuelle Informationen, falsche Kontextzuordnung, fehlgeschlagene Interpolation aus Diagrammen und Halluzinationen unter Unsicherheit. Letztere bezeichnen die Tendenz von KI-Systemen, bei fehlender Information plausibel klingende, aber faktisch falsche Antworten zu erzeugen.

»Genauigkeit ist kein Merkmal auf einer Checkliste, sondern die Voraussetzung für alles, was ein KI-System leisten soll«, sagt Sushel Bijganath, CEO von octonomy. »Ein System, das 58 Prozent komplexer Fragen richtig beantwortet, spart keine Zeit. Es schafft eine neue Kategorie von Fehlern, die viel schwerer zu erkennen ist als die, die es eigentlich ersetzen sollte.«

 

Über octonomy:
octonomy ist die einzige KI-Plattform, die tiefes Expertenwissen mit Multi-Agenten-Ausführung verbindet. Gegründet 2024 von Sushel Bijganath und Oliver Trabert mit dem Anspruch, dass komplexes Fachwissen skalierbar sein muss, ohne an Genauigkeit zu verlieren. Führende Unternehmen aus Industrie, Maschinenbau oder Logistik setzen octonomy ein, um visuell komplexe Dokumentationen zu erschließen und wissensintensive Prozesse vollständig zu automatisieren, bei über 96 Prozent Antwortgenauigkeit. octonomy beschäftigt über 130 Mitarbeitende an Standorten in Köln, New York und Denver, wird von Capnamic, Macquarie Capital, NRW.BANK und Tech Visions Fonds unterstützt.
 
[1] https://www.octonomy.ai/ebooks/the-state-of-agentic-al-accuracy-2026/

 

187 Artikel zu „KI Hallu“

Keine Angst vor KI-Halluzinationen – mit den richtigen Vorkehrungen

Agentic AI hat sich 2025 schnell zu einem der meistdiskutierten Begriffe im Bereich Cybersicherheit entwickelt. Doch was zeichnet Agentic AI nun konkret aus und welche Unterschiede bestehen zu einer grundlegenden Automatisierung oder zu verbesserten Assistenten? Experten für MXDR bringen Licht ins Dunkel.   Für diejenigen, die Agentic AI effizient und zielführend im Bereich Security nutzen…

Fakten statt Fiktion: Was tun gegen KI-Halluzinationen und KI-Bias?

Generative KI ist unglaublich gut darin, Informationen zu recherchieren und aufzubereiten. Unfehlbar ist sie allerdings nicht – sie kann durchaus falsch liegen oder vorurteilsbehaftete Ergebnisse liefern. Doch es gibt Maßnahmen, mit denen Unternehmen das Risiko von Halluzinationen und Bias minimieren können.  Immer mehr Unternehmen setzen generative KI (GenAI) ein, um beispielsweise Mitarbeitern den Zugang zu…

KI in der Notaufnahme – TraumAgent ohne Halluzinationen

Im Schockraum müssen Schwerstverletzte schnellstmöglich versorgt werden. Am Fraunhofer-Institut für intelligente Analyse- und Informationssysteme (IAIS) entwickelte ein Team um Sven Giesselbach mit mehreren Partnern die KI-Prototypen TraumAgent und FormAssistant. Beide unterstützen die hochkomplexen und zeitkritischen Vorgänge in der Notaufnahme.

Millionen für KI und kein Effekt: Warum Finanzchefs 2026 umsteuern müssen

Management Summary Viele CFO-Organisationen investieren 2026 weiter massiv in KI, erzielen aber keinen belastbaren Wertbeitrag. Der Engpass liegt nicht in der Technologie, sondern in fehlender Governance, fragmentierten Datenmodellen und einer falschen Verortung von KI als IT-Thema statt als Fachtransformation. Wer jetzt umsteuert, sollte das Fundament priorisieren: integrierte Datenbasis, klare Steuerungslogik und eine Umsetzung, die Business…

Wie KI einheitliche Weiterbildungsansätze auflöst

KI verändert nahezu alle beruflichen Rollen – welche neuen Kenntnisse gefragt sind und welche bestehenden Kompetenzen sie ergänzen, entwickelt sich jedoch je nach Rolle unterschiedlich: im Data-Bereich anders als in der IT. Parallel gewinnen bestimmte menschliche Kompetenzen über Berufsfelder hinweg an Bedeutung – allen voran kritisches Denken: In Deutschland stiegen die Kurseinschreibungen im Jahresvergleich um…

Komplexreduzierte Fertigung: Wie KI-Agenten den Wandel in der Industrie vorantreiben werden

Die Fertigungsindustrie befindet sich im Wandel, und dieser Wandel wird maßgeblich durch den Einsatz von künstlicher Intelligenz (KI) vorangetrieben. Mit der kontinuierlichen Weiterentwicklung von AI Agents vollzieht sich eine technologische Transformation, die nicht nur die Art und Weise verändert, wie Produkte gefertigt werden, sondern auch, wie Unternehmen in ihrer Gesamtheit operieren. Doch während der technologische…

KI, Cloud und digitale Souveränität – Fünf zentrale Trends im DMS

Künstliche Intelligenz prägt auch 2026 das Dokumentenmanagement und treibt spürbare Effizienzgewinne voran. Gleichzeitig wächst der Anspruch, Daten stärker zu kontrollieren und digitale Souveränität zu sichern. Daraus ergeben sich die zentralen DMS-Trends des Jahres.

Fünf Gründe, warum KI für CFOs zur Führungsfrage wird: KI rechnet sich – oder sie scheitert

Künstliche Intelligenz (KI) ist für CFOs von einer experimentellen Technologie zu einer zentralen Führungs‑ und Steuerungsfrage geworden. Angesichts von Volatilität, Effizienzdruck und Regulierung reicht »Pilotieren« nicht mehr aus; KI muss messbaren wirtschaftlichen Nutzen (ROI) liefern. Fünf Handlungsfelder zeigen wie CFOs KI pragmatisch, kontrolliert und wertschöpfend einsetzen können.

Der Mittelstand zwischen Cloud, KI und Regulierung – Der schleichende Verlust digitaler Kontrolle

Digitale Souveränität ist längst kein politisches Schlagwort mehr, sondern entwickelt sich zur Überlebensfrage für Unternehmen, die zwischen geopolitischen Spannungen, neuen EU‑Regeln und rasanter KI‑Nutzung bestehen müssen. Abhängigkeiten von globalen Cloud‑Konzernen, rechtliche Grauzonen beim Datenschutz und unkontrollierte Schatten‑KI entpuppen sich dabei als reale Risiken für Sicherheit, Compliance und Wettbewerbsfähigkeit. Der Mittelstand sollte jetzt handeln– und sich Schritt für Schritt von der technologischen Abhängigkeit lösen.

Enterprise-KI auf souveräner Cloud-Infrastruktur: Modelloffene Ansätze für regulierte Umgebungen

Der Einsatz generativer künstlicher Intelligenz (KI) in Unternehmen gewinnt zunehmend an Bedeutung. Gleichzeitig stehen Organisationen – insbesondere in Europa – vor der Herausforderung, Anforderungen an Datenschutz, regulatorische Konformität und technologische Unabhängigkeit mit dem Wunsch nach innovativen KI-Anwendungen zu vereinbaren. Vor diesem Hintergrund rücken modelloffene Plattformen und souveräne Cloud-Infrastrukturen verstärkt in den Fokus.   Ein aktuelles…

NEURA Robotics und AWS treten in strategische Zusammenarbeit ein, um physische KI in großem Umfang zu beschleunigen

AWS wird als primärer Cloud-Anbieter von NEURA fungieren und die Neuroraverse-Plattform für Physical-AI-Schulungen, Echtzeit-Datenverarbeitung und gemeinsame Intelligenz über Roboterflotten hinweg hosten. NEURA Gym wird sich in AWS-Services, einschließlich Amazon SageMaker, integrieren, um Schulungspipelines zu beschleunigen, die reale Sensordaten mit High-Fidelity-Simulation kombinieren. NEURA wird über das AWS Partner Network mit AWS zusammenarbeiten, um die Markteinführungsaktivitäten für…

Kompetenzen im Umgang mit KI messbar machen

Als erste Hochschule in Deutschland setzt die IU auf einen systematischen Ansatz, um Kompetenzen im Umgang mit KI messbar zu machen. Fünfstufiges KI-Kompetenzmodell im Lehrplan verankert: von grundlegender Nutzung bis zur strategischen Zusammenarbeit mit KI. Internationale Befragung bestätigt: 61,5 Prozent der Befragten bewerten das Modell gegenüber vergleichbaren Frameworks (z.B. WEF) als effektiver. Seit April nehmen…

Warum die Qualität der KI trotz steigender Adoption nicht Schritt hält

KI‑Adoption steigt – Qualität stagniert oder sinkt: Trotz breiter Einführung von KI‑Features scheitert über die Hälfte der KI‑Initiativen am Übergang in den produktiven Betrieb; Halluzinationen und Fehlinterpretationen nehmen wieder zu. Teststrategien kommen nicht hinterher: Unternehmen setzen zwar stärker auf KI‑gestützte und menschliche Testmethoden, doch die Geschwindigkeit und Komplexität der KI‑Entwicklung überfordern klassische QA‑Prozesse. Multimodale KI…

Finanzverantwortlichen fehlen weiterhin Mindestregeln für den KI-Einsatz

Fast die Hälfte der selbsternannten KI‑Vorreiter im Finanzbereich fehlt es laut einer neuen Studie an grundlegender Governance, um KI sicher zu skalieren. Statt eines einheitlichen Reifegrads zeigen sich sechs unterschiedliche Umsetzungsstadien – mit klaren Schwächen bei Regeln oder Daten. Die Studie macht deutlich: Nicht die KI‑Leistung, sondern fehlende Steuerbarkeit bremst den Fortschritt.   Fast die…

Studie zeigt Abhängigkeit deutscher Unternehmen von globalen KI-Anbietern​

Nur 57 % der deutschen Unternehmen haben eine Exit-Strategie, falls ihr primärer KI-Anbieter den Zugang einschränkt. Gleichzeitig sagen 37 % dieser Unternehmen, dass ein Wechsel moderate bis erhebliche Auswirkungen auf die Geschäftskontinuität hätte. 46 % haben nur teilweise Einblick, wo ihre Daten gespeichert, verarbeitet und potenziell zugänglich sind. Nur 30 % verfügen über eine ausgeprägte…

»Human in the Loop« verwandelt KI in einen steuerbaren Schlüsselfaktor

Eine aktuelle Studie des Branchenverbands Bitkom zeigt, dass viele Nutzer dem Einsatz von KI weiterhin skeptisch gegenüberstehen [1]. Zugleich verbindet sich mit der Technologie das Risiko sogenannter Halluzinationen und fehlerhafter Ergebnisse. Der Ansatz »Human in the Loop« minimiert diese Vorbehalte und Risiken weitgehend durch Kontrolle der Ergebnisse und Training von KI-Modellen, wie Thomas Uber, Geschäftsführer…

Nicht das KI-Modell ist kaputt, sondern eure Plattform

Warum KI‑Produktion kein Modell‑, sondern ein Betriebsproblem ist und was nötig ist, damit aus KI-Demos tatsächlich KI-Produktion wird.   Auf der kürzlich zu Ende gegangenen KubeCon EU 2026 hatte jeder große Anbieter etwas zum Thema KI auf Kubernetes anzukündigen. IBM, Red Hat und Google stellten »llm-d« zur Optimierung der verteilten Inferenz zur Verfügung. Microsoft brachte…

Island stellt SASE für das KI-Zeitalter neu auf – im Rahmen der Perfect-Packet-Architektur

Bei Fortune-500-Firmen in der Praxis bewährt: Die Perfect-Packet-Architektur analysiert, prüft und schützt Datenverkehr genau dort, wo es sinnvoll ist – auf dem Endgerät oder in der Cloud. So entfallen Reibungsverluste klassischer SASE-Modelle.   Island, die Plattform für Enterprise Work und Entwickler des Enterprise Browsers, präsentiert eine grundlegend neue Secure Access Service Edge (SASE)-Architektur [1]. Ihr…

Vertrauenswürdige KI ist mehr als ein Prompt

Warum verlässliche KI-Ergebnisse eine strukturierte Wissensbasis voraussetzen und wie Unternehmen diese systematisch aufbauen können.   Über ein Viertel der deutschen Unternehmen sieht den Einsatz künstlicher Intelligenz inzwischen als potenzielles Geschäftsrisiko, so das Ergebnis des Allianz Risk Barometer 2026 [1]. Fehlerhafte KI-Ergebnisse im Kundenkontakt oder in der Produktion werfen zunehmend Haftungsfragen auf. Die Risiken generativer KI…

Die unsichtbare Verschiebung unserer Meinungen durch KI

KI-Systeme wie ChatGPT können Perspektiven verzerren – ein Risiko, das bislang nur teilweise erfasst wird.   Große Sprachmodelle beeinflussen zunehmend, wie Menschen Informationen wahrnehmen und bewerten. Die Studie »Communication Bias in Large Language Models: A Regulatory Perspective«, erschienen im Journal »Communications of the ACM«, zeigt nun, dass diese Systeme gesellschaftliche und politische Perspektiven verzerren können…