Illustration Absmeier foto freepik ki

Seit mehr als einem Jahr prüfen und bewerten die KI-Experten von Insiders Technologies die Leistungsfähigkeit der wesentlichen LLMs anhand eines standardisierten Tests mit realen Daten. Wir sprachen mit Dr. Alexander Lück, Product Owner Data Management und verantwortlich für das LLM-Benchmarking, über die wesentlichen Erkenntnisse aus dem Benchmarking für Strategie- und Technologieauswahl.

Herr Dr. Lück, warum erstellen Sie Benchmarks für LLMs und wie gehen Sie dabei vor?

Dr. Lück: In den vergangenen zwei Jahren ist eine Fülle an LLMs auf den Markt gekommen, die sich in vielerlei Hinsicht zum Teil deutlich voneinander unterscheiden. Neben formellen Gesichtspunkten wie Hersteller und Preisgefüge oder Datenschutz und Sicherheit sowie den technologischen Ansätzen – wie beispielsweise dem Einsatz von Reasoning – sind diese Modelle auch sehr unterschiedlich leistungsfähig und geeignet für bestimmte Use Cases. Unser Benchmarking haben wir für Kunden mit Anwendungen im Intelligent Document Processing konzipiert und durchgeführt, um zu testen, wie die einzelnen LLMs bei der Dokumentenklassifikation und Datenextraktion abschneiden. Wir verwenden dazu einen standardisierten Test mit realen Dokumenten und konkreten Use Cases, insbesondere aus der Versicherungswirtschaft. Die Ergebnisse dürften jedoch weitgehend auch auf die Kundenkommunikation in ähnlichen Branchen wie beispielsweise dem Banking übertragbar sein.

Was sind aus Ihrer Sicht die wichtigsten Erkenntnisse bisher?

Dr. Lück: Unsere Untersuchungen zeigen, dass es nicht das eine, beste LLM gibt. Vielmehr ist der Markt dort sehr dynamisch. Es kommt sehr häufig zu Sprüngen in der Performance und dementsprechend zu Wechseln im Ranking. Ebenso ist häufig die Kombination mehrerer LLMs von Vorteil – beispielsweise, wenn das Ergebnis eines ersten LLMs durch ein zweites LLM validiert wird. Viel Flexibilität und echtes Best of Breed machen hier also viel Sinn. Für Kunden ergibt sich daraus die Notwendigkeit, KI-Anwendungen so zu implementieren, dass sie ohne großen Aufwand zwischen Modellen wechseln können. Nur so können sie bedeutsame Performance-Steigerungen durch LLM-Wechsel mitnehmen. Dabei darf die Flexibilität nicht nur für die technischen Aspekte der Integration gelten, sondern muss sich auch auf vertragliche, datenschutzrechtliche und organisatorische Aspekte erstrecken.

Zunehmend wird über die Risiken von externen LLMs diskutiert. Gibt Ihr Benchmarking auch dazu Aufschluss?

Dr. Lück: Indirekt schon, da unser Vergleich gezeigt hat, dass im Trade-off zwischen Performance und Datenschutzlevel auch lokal oder privat gehostete LLMs sehr gute Ergebnisse liefern. Das Angebot an LLMs ist sehr breit gefasst und wächst kontinuierlich. Neben den großen bekannten Unternehmen wie Open AI, Anthropic, Mistral oder Google tauchen ständig neue Anbieter am Markt auf. Unser Benchmarking hat deutlich gemacht, dass immer mehr dieser Modelle auch ohne extreme Anforderungen an Rechenkapazitäten in nationalen oder europäischen Public Clouds, in Private Clouds oder sogar lokal betrieben werden können. Ein Beispiel dafür ist unser feingetuntes OvAItion LLM, das mit den großen, externen LLM sehr gut mithalten kann, aber eine deutlich höhere Vertraulichkeit bietet. Die gute Botschaft für Kunden ist also, dass es kein Entweder-oder bei Datensicherheit und KI-Innovation gibt. Kunden sollten ihren individuellen Schutzbedarf im Hinblick auf Datenschutz, Vertraulichkeit, Sicherheit und digitale Souveränität definieren und als wichtiges Kriterium bei der Auswahl von LLMs nutzen – Performance ist nicht alles.

Welche weiteren Empfehlungen können Sie auf Basis Ihres Benchmarkings geben?

Dr. Lück: LLMs sind ohne Frage eine sehr leistungsfähige KI-Technologie, aber bei Weitem nicht der einzige innovative Ansatz. Sicherlich rücken auch andere Technologien und Verfahren wieder verstärkt in den Fokus, wenn der mediale Blick auf LLMs abgeklungen ist. In jedem Fall sollte eine Technologieentscheidung immer vom Use Case ausgehend getroffen werden. Manchmal lassen sich in Kombination mit anderen Techniken oder auch völlig ohne LLMs bessere oder gleich gute Ergebnisse erzielen. Für Kunden bedeutet das, dass sie bei der Umsetzung ihrer KI-Strategie auf eine Plattform wie beispielsweise OvAItion setzen sollten, die verschiedene Technologien unterstützt und unterschiedliche Level an Vertraulichkeit abbilden kann.

Gesprächspartner und Autor:

	Dr. Alexander Lück, Product Owner Data Management bei Insiders Technologies GmbH, www.insiders-technologies.de
	Bernd Hoeck, freier Journalist und IT-Experte

1619 Artikel zu „LLM“

News | Business | Künstliche Intelligenz | Strategien | Ausgabe 5-6-2025

SLMs, LLMs und die Debatte, die am Thema vorbeigeht: Komplexität bewältigen – Klarheit finden

27. Juni 2025

Es wird viel über die Vorteile von SLMs (Small Language Models) diskutiert. Und doch geht die Diskussion oft an der Sache vorbei. Denn es geht nicht um Größe oder Komplexität. Es geht vielmehr darum, wie SLMs konzipiert sind, um Entscheidungen zu treffen und die richtige Balance zu finden zwischen ihrer Spezialisierung und ihrer Fähigkeit zu breiterem, allgemeinem Wissen. Der wahre Wert eines SLM liegt in seiner Fähigkeit, spezialisiertes Wissen und Argumente zu liefern, die dem Generalisten, dem LLM (Large Language Model), helfen, fundierte Entscheidungen zu treffen, zu bestimmen, wann der Experte hinzugezogen werden muss, und das Richtige zu tun.

Jetzt 25 % Ticketrabatt für »manage it« Leser

1619 Artikel zu „LLM“