Ein Jahr LLM-Benchmarking: 3 Lessons Learned

Illustration Absmeier foto freepik ki

Seit mehr als einem Jahr prüfen und bewerten die KI-Experten von Insiders Technologies die Leistungsfähigkeit der wesentlichen LLMs anhand eines standardisierten Tests mit realen Daten. Wir sprachen mit Dr. Alexander Lück, Product Owner Data Management und verantwortlich für das LLM-Benchmarking, über die wesentlichen Erkenntnisse aus dem Benchmarking für Strategie- und Technologieauswahl.

 

Herr Dr. Lück, warum erstellen Sie Benchmarks für LLMs und wie gehen Sie dabei vor?

Dr. Lück: In den vergangenen zwei Jahren ist eine Fülle an LLMs auf den Markt gekommen, die sich in vielerlei Hinsicht zum Teil deutlich voneinander unterscheiden. Neben formellen Gesichtspunkten wie Hersteller und Preisgefüge oder Datenschutz und Sicherheit sowie den technologischen Ansätzen – wie beispielsweise dem Einsatz von Reasoning – sind diese Modelle auch sehr unterschiedlich leistungsfähig und geeignet für bestimmte Use Cases. Unser Benchmarking haben wir für Kunden mit Anwendungen im Intelligent Document Processing konzipiert und durchgeführt, um zu testen, wie die einzelnen LLMs bei der Dokumentenklassifikation und Datenextraktion abschneiden. Wir verwenden dazu einen standardisierten Test mit realen Dokumenten und konkreten Use Cases, insbesondere aus der Versicherungswirtschaft. Die Ergebnisse dürften jedoch weitgehend auch auf die Kundenkommunikation in ähnlichen Branchen wie beispielsweise dem Banking übertragbar sein.

 

Was sind aus Ihrer Sicht die wichtigsten Erkenntnisse bisher?

Dr. Lück: Unsere Untersuchungen zeigen, dass es nicht das eine, beste LLM gibt. Vielmehr ist der Markt dort sehr dynamisch. Es kommt sehr häufig zu Sprüngen in der Performance und dementsprechend zu Wechseln im Ranking. Ebenso ist häufig die Kombination mehrerer LLMs von Vorteil – beispielsweise, wenn das Ergebnis eines ersten LLMs durch ein zweites LLM validiert wird. Viel Flexibilität und echtes Best of Breed machen hier also viel Sinn. Für Kunden ergibt sich daraus die Notwendigkeit, KI-Anwendungen so zu implementieren, dass sie ohne großen Aufwand zwischen Modellen wechseln können. Nur so können sie bedeutsame Performance-Steigerungen durch LLM-Wechsel mitnehmen. Dabei darf die Flexibilität nicht nur für die technischen Aspekte der Integration gelten, sondern muss sich auch auf vertragliche, datenschutzrechtliche und organisatorische Aspekte erstrecken.

 

Zunehmend wird über die Risiken von externen LLMs diskutiert. Gibt Ihr Benchmarking auch dazu Aufschluss?

Dr. Lück: Indirekt schon, da unser Vergleich gezeigt hat, dass im Trade-off zwischen Performance und Datenschutzlevel auch lokal oder privat gehostete LLMs sehr gute Ergebnisse liefern. Das Angebot an LLMs ist sehr breit gefasst und wächst kontinuierlich. Neben den großen bekannten Unternehmen wie Open AI, Anthropic, Mistral oder Google tauchen ständig neue Anbieter am Markt auf. Unser Benchmarking hat deutlich gemacht, dass immer mehr dieser Modelle auch ohne extreme Anforderungen an Rechenkapazitäten in nationalen oder europäischen Public Clouds, in Private Clouds oder sogar lokal betrieben werden können. Ein Beispiel dafür ist unser feingetuntes OvAItion LLM, das mit den großen, externen LLM sehr gut mithalten kann, aber eine deutlich höhere Vertraulichkeit bietet. Die gute Botschaft für Kunden ist also, dass es kein Entweder-oder bei Datensicherheit und KI-Innovation gibt. Kunden sollten ihren individuellen Schutzbedarf im Hinblick auf Datenschutz, Vertraulichkeit, Sicherheit und digitale Souveränität definieren und als wichtiges Kriterium bei der Auswahl von LLMs nutzen – Performance ist nicht alles.

 

Welche weiteren Empfehlungen können Sie auf Basis Ihres Benchmarkings geben?

Dr. Lück: LLMs sind ohne Frage eine sehr leistungsfähige KI-Technologie, aber bei Weitem nicht der einzige innovative Ansatz. Sicherlich rücken auch andere Technologien und Verfahren wieder verstärkt in den Fokus, wenn der mediale Blick auf LLMs abgeklungen ist. In jedem Fall sollte eine Technologieentscheidung immer vom Use Case ausgehend getroffen werden. Manchmal lassen sich in Kombination mit anderen Techniken oder auch völlig ohne LLMs bessere oder gleich gute Ergebnisse erzielen. Für Kunden bedeutet das, dass sie bei der Umsetzung ihrer KI-Strategie auf eine Plattform wie beispielsweise OvAItion setzen sollten, die verschiedene Technologien unterstützt und unterschiedliche Level an Vertraulichkeit abbilden kann.

 

Gesprächspartner und Autor:

Dr. Alexander Lück, Product Owner Data Management bei Insiders Technologies GmbH, www.insiders-technologies.de

Bernd Hoeck, freier Journalist und IT-Experte

 

1619 Artikel zu „LLM“

SLMs, LLMs und die Debatte, die am Thema vorbeigeht: Komplexität bewältigen – Klarheit finden

Es wird viel über die Vorteile von SLMs (Small Language Models) diskutiert. Und doch geht die Diskussion oft an der Sache vorbei. Denn es geht nicht um Größe oder Komplexität. Es geht vielmehr darum, wie SLMs konzipiert sind, um Entscheidungen zu treffen und die richtige Balance zu finden zwischen ihrer Spezialisierung und ihrer Fähigkeit zu breiterem, allgemeinem Wissen. Der wahre Wert eines SLM liegt in seiner Fähigkeit, spezialisiertes Wissen und Argumente zu liefern, die dem Generalisten, dem LLM (Large Language Model), helfen, fundierte Entscheidungen zu treffen, zu bestimmen, wann der Experte hinzugezogen werden muss, und das Richtige zu tun.

Welches LLM ist das richtige? Fünf Tipps für die Suche

Generative KI schickt sich an, die Prozesse und Arbeitsmethoden von Behörden und Unternehmen zu revolutionieren. Eine Herausforderung bleibt jedoch die Wahl des richtigen Large Language Model (LLM), denn es gibt viele Faktoren zu beachten – etwa die Modellgröße, die Sprachunterstützung sowie die Kosten und die Sicherheit. Ein KI- und Enterprise-Search-Spezialist zeigt, wie Organisationen aller Art…

Effizienzsteigerung in der Rechnungs­verarbeitung: Potenziale durch den Einsatz von Large Language Models (LLMs)

Der Einsatz von Künstlicher Intelligenz (KI) gilt als strategischer Schlüssel zur digitalen Transformation in Unternehmen. Dennoch hinkt die tatsächliche Nutzung den Erwartungen noch deutlich hinterher. Laut einer Bitkom-Studie aus 2024 setzen lediglich 16 Prozent der deutschen Unternehmen KI aktiv in ihren Geschäftsprozessen ein – ein ernüchternder Befund, der eine deutliche Lücke zwischen technologischem Potenzial und betrieblicher Realität offenbart.

Im Kontext der Datensicherheit sind LLMs als Menschen zu betrachten

Große Sprachmodelle und die Frage der Data Security – Sicherheitsfragen rund um LLMs.   Angesichts der rasanten KI-Entwicklung wird immer deutlicher, dass die grundlegenden Leitplanken, Plausibilitätsprüfungen und prompt-basierten Sicherheitsmaßnahmen, die derzeit gelten, durchlässig und unzureichend sind. Bei der Entwicklung von Strategien zur Verbesserung der Datensicherheit in KI-Workloads ist es entscheidend, die Perspektive zu ändern und…

LLM im SOC: 2025 wird das Jahr des Sicherheitsanalysten mit KI-Unterstützung

aDvens, ein unabhängiges Unternehmen für Cybersicherheit in Europa, hat die Nutzung von Large Language Models (LLMs) als einen der wichtigsten Trends im Bereich Security Operations Center (SOC) für das kommende Jahr identifiziert. LLMs sind eine Art der künstlichen Intelligenz (KI), die durch Machine Learning in der Lage sind, Textinhalte zu verstehen und zu generieren. In…

Komplexität im Fulfillment: Entlastung für ERP-Systeme

Onlineshops, die ihre Verkaufskanäle auf neue Plattformen und Regionen ausdehnen, kommen früher oder später an den Punkt, an dem das gewachsene tägliche Bestellaufkommen einen spürbaren Rückstau im Bearbeitungsablauf verursacht. Probleme mit Bestellungen häufen sich im Kundensupport, während die zuständigen Mitarbeitenden Schwierigkeiten haben, in Einzelfällen manuell Ausnahmen im System vorzunehmen, um aufgetretene Probleme zu lösen. Die…

Tenable stellt AI Aware vor: Eine bahnbrechende Lösung für proaktive Sicherheit von KI und Large Language Models (LLMs)

Tenable, das Unternehmen für Exposure-Management, gab die Veröffentlichung von AI Aware bekannt, einer hochentwickelten Erkennungsfunktion, die schnell feststellen kann, ob Lösungen für künstliche Intelligenz im Einsatz sind und ob KI-bezogene Schwachstellen und Sicherheitsschwächen vorliegen. Die Funktion ist ab sofort in Tenable Vulnerability Management, der weltweit führenden Lösung für Exposure-Management, verfügbar [1]. Tenable AI Aware liefert…

In zehn Schritten zur Business Continuity – Checkliste für ein belastbares Notfallmanagement

Die Einführung eines Business Continuity Management (BCM) ist komplex und zeitaufwendig. Der BSI-Standard 200-4 dient als Hilfestellung, um zielgerichtet und effektiv vorzugehen. Wichtig ist, vorhandene Datenbestände geschickt zu nutzen und bei der Toolauswahl die richtigen Schwerpunkte zu setzen, um in kurzer Zeit ein Notfallmanagement zu etablieren.

Weltweit erster LLM-Benchmark für CRM

Salesforce hat den weltweit ersten LLM-Benchmark für CRM entwickelt, um Unternehmen die Bewertung von generativen KI-Modellen für Geschäftsanwendungen zu ermöglichen. Der Benchmark evaluiert LLMs (Large Language Models) für Vertriebs- und Service-Anwendungsfälle hinsichtlich Genauigkeit, Kosten, Geschwindigkeit sowie Vertrauen und Sicherheit. Die Bewertungen entstehen auf der Grundlage echter CRM-Datensätze von Salesforce und aus dem Kundengeschäft, sowie Expertenbewertungen…

Wie Hacker KI und LLMs für ihre Zwecke nutzen

Der Einsatz von KI kann Routineaufgaben automatisieren, Abläufe effizienter gestalten und die Produktivität erhöhen. Dies gilt für die legale Wirtschaft ebenso wie leider auch für die organisierte Cyberkriminalität. Gerade Large Language Models (LLM) werden von kriminellen Akteuren genutzt – weniger als visionäre Alleskönner-Technologien, sondern vielmehr als effiziente Werkzeuge zum Verbessern von Standardangriffen.   Seit Ende…

Die Grenzen der LLM: Wegweisende KI-Technologie ist kein Alleskönner 

Large Language Models (LLMs) sind voll im Trend. Ob privat oder in Unternehmen, auf LLMs basierende Chatbots wie beispielsweise ChatGPT von OpenAI generieren mit Deep-Learning-Modellen Texte in menschenähnlicher Weise. Auf Basis von massiven Mengen von Textdaten trainiert, können sie so auf viele Fragen Antworten liefern und Befehle ausführen. Unternehmensentscheider prüfen momentan, welche Vorteile diese Sprachmodelle für ihre Organisation haben und wie man…

TrustLLM: Die europäische KI-Alternative

In Europa entsteht ein Large Languange Model, das zuverlässiger, offener, transparenter und energiesparender sein soll als ChatGPT. Der Schlüssel dazu ist Europas größter Computer, der derzeit in Jülich gebaut wird.   Seit das amerikanische Unternehmen OpenAI im November 2022 die Sprachmaschine ChatGPT zugänglich machte, geht das Thema durch die Decke. Können jetzt Personaler ihre Zeugnisse,…

Large Language Models (LLMs) und Herausforderungen an den Storage – die Bedeutung von Parallelität und Checkpoints

Wenn man die Nachrichten im Bereich Deep Learning verfolgt, hat man sicher zur Kenntnis genommen, dass die Daten und Modelle im Bereich Deep Learning inzwischen sehr groß sind. Die Datensätze können in der Größenordnung von Petabytes liegen, und die Modelle selbst sind ebenfalls Hunderte von Gigabytes groß. Das bedeutet, dass nicht einmal das Modell selbst…

Wie sieht das Teamwork zwischen Mensch und Maschine in vier Jahren aus?

Wenn KI-Systeme künftig immer mehr Arbeitsaufgaben übernehmen, welche Rolle spielt dann noch der Mensch? Dieser Frage ist die Digitalberatung valantic in ihrer aktuellen C-Level-Befragung Digital Excellence Outlook 2026 gemeinsam mit dem Handelsblatt Research Institute (HRI) nachgegangen [1]. Es zeigt sich: In den Führungsetagen wird mit tiefgreifenden Veränderungen der Arbeitswelt durch den Einfluss von KI gerechnet – und…

Agents of Chaos: KI-Agenten als neue Risikoklasse

Autonome KI‑Agenten auf Basis von Large Language Models (LLMs) entwickeln sich rasant von experimentellen Chatbots zu handlungsfähigen Systemen, die eigenständig Aufgaben ausführen, Werkzeuge nutzen, kommunizieren und Entscheidungen treffen. Das Paper »Agents of Chaos« analysiert erstmals systematisch, welche neuen Sicherheits‑, Datenschutz‑ und Governance‑Risiken dadurch entstehen [1].   Die Studie basiert auf einer zweiwöchigen Red‑Teaming‑Untersuchung mit realistisch…