Ohne guten Daten keine gute KI: Wie Daten für generative KI optimiert werden

Illustration Absmeier foto freepik

Die Markteinführung von OpenAI ChatGPT hat eine wahre Welle der Begeisterung für generative künstliche Intelligenz (KI), insbesondere für Large Language Models (LLMs) ausgelöst – und ein Ende ist nicht abzusehen. Fast täglich entstehen neue Produkte, Unternehmen und Angebote im Bereich der generativen KI. Auch Unternehmen setzen zunehmend auf LLMs, um sich wettbewerbs- und zukunftsfähig aufzustellen.

 

Viele Führungskräfte vernachlässigen jedoch eine wichtige Komponente einer erfolgreichen generativen KI-Strategie: die sogenannte Data Readiness. Dies bestätigt auch eine Studie von Cognizant, die unter Geschäfts- und Technologieentscheidern großer Unternehmen in den USA und Großbritannien durchgeführt wurde. Demnach haben fast zwei Drittel (74 Prozent) der Führungskräfte noch keine Vorstellung davon, wie sie ihre Daten integrieren und generative KI über ihre Legacy-Anwendungen und Multi-Cloud-Umgebungen hinweg verwalten sollen.

 

Warum Daten wichtig sind

Künstliche Intelligenz begleitet uns schon seit einigen Jahren. Neu an der generativen KI ist, dass sie Dinge wie Texte, Bilder, Audio, Video, Softwarecode usw. erzeugen kann. Im vergangenen Jahr verblüfften Modelle wie ChatGPT oder Dall-E die Welt, indem sie fehlerfreie Originalprosa schrieben, flüssige Gespräche führten und sogar fantastische visuelle Kunstwerke produzierten. Zahlreiche Futuristen und Wirtschaftsexperten sagten damals einen tiefgreifenden, wenn auch simplen Einfluss dieses Durchbruchs auf die Zukunft der Arbeit voraus: »Kreative« Aufgaben, die heute noch von Menschen ausgeführt werden, sollten schon bald kostengünstiger und effizienter von generativer KI erledigt werden.

Einige Monate später hat sich jedoch ein komplexeres Bild ergeben: LLMs sind – zumindest bisher – stärker auf menschliche Eingaben und Überwachung angewiesen als ursprünglich angenommen. Auch im Unternehmenskontext setzt sich zunehmend die Erkenntnis durch, dass es beim Einsatz von generativer KI nicht einfach darum geht, eine Lizenz zu erwerben oder ein LLM zu bauen und dann den »Start«-Knopf zu drücken.

Um das einzigartige Potenzial der generativen KI für ein bestimmtes Unternehmen ausschöpfen zu können, benötigt die KI Zugang zu den proprietären Datensätzen, die jedes moderne Unternehmen einzigartig machen. In der Umfrage wurden proprietäre/interne Datensätze als die am häufigsten genannten Datensätze (72 Prozent) für den effizienten Betrieb von KI-Modellen ermittelt, gefolgt von validierten Datensätzen (45 Prozent) oder Datensätzen von Dritten (43 Prozent).

 

Zwei Modelle zur Integration von generativer KI

Bisher haben sich zwei Hauptansätze für die Integration von KI mit proprietären Unternehmensdaten herauskristallisiert, die jeweils ihre eigenen Vor- und Nachteile haben:

  1. Benutzerdefinierte LLMs
    Bei diesem Ansatz wird entweder ein Foundational Model (FM) oder ein allgemeines, universelles LLM verwendet. Die Modelle werden angepasst und mit eigenen Daten trainiert (»Fine-Tuning«), um neue anwendungsspezifische LLM- und/oder KI-Werkzeuge zu erstellen. Der Prozess des Fine-Tunings – insbesondere bei Techniken wie Reinforcement Learning from Human Feedback (RLHF) – erfordert menschlichen Input und kann daher zeit- und ressourcenintensiv sein. Auch nach der Fertigstellung müssen die neuen Werkzeuge ständig überwacht (»Human in the loop«), verbessert und gewartet werden. Für Unternehmen mit speziellen Nischenanforderungen und den Ressourcen für eine längerfristige Investition ist die Feinabstimmung des FM mit eigenen Daten ein aufwendiger, aber notwendiger Weg in die Zukunft.
  2. Standard-LLMs kombiniert mit Retrieval Augmented Generation (RAG)
    Eine schnellere und kostengünstigere Lösung besteht darin, ein bestehendes LLM zu verwenden und ihm den Zugriff auf proprietäre Daten zu ermöglichen. In diesem Fall behält das Modell seine »generischen« Kernprozesse bei, ergänzt aber seine Ausgabe mit Informationen, die spontan aus proprietären Datenbanken abgerufen werden. Der RAG-Ansatz ist nicht nur schnell und kostengünstig, sondern auch flexibler als ein benutzerdefiniertes LLM. Änderungen in den Daten können in Echtzeit in den Ergebnissen widergespiegelt werden, ohne dass das gesamte Modell neu trainiert werden muss. Aber auch hier gilt, dass die Qualität des Modellergebnisses und seiner Gesamtfunktionalität begrenzt wird durch die Qualität und Zugänglichkeit der Daten, mit denen es arbeiten muss.

 

Datenqualität als Schlüsselfaktor

Unabhängig davon, welchen Ansatz ein Unternehmen für seine Strategie der generativen KI wählt, sind die Erfolgsaussichten eng mit der Qualität der bestehenden Datenarchitektur in den folgenden Schlüsselbereichen verknüpft:

  • Katalogisierung und Metadaten
    Daten allein machen noch keinen Sinn – auch nicht für das weit verzweigte neuronale Netz eines modernen LLM. Die erste Säule der Data Readiness ist daher die Organisation der Daten in einem zentralen Repository mit umfassenden Metadaten. Die Metadaten wiederum beschreiben Quelle, Struktur, Inhalt und im Idealfall auch die Bedeutung. LLMs sollen also bald als eine Art Agent für menschliche Nutzer fungieren und Antworten und Ergebnisse auf natürlichsprachliche Anfragen und Anweisungen liefern. Dazu benötigen sie nicht nur Zugriff auf alle relevanten Daten, sondern auch Informationen über die Daten, die ihnen Kontext und Bedeutung verleihen. Ohne ein exzellentes Metadatenmanagement wird es für LLM-Agenten schwierig, wenn nicht gar unmöglich sein, effizient zu arbeiten.
  • Zuverlässigkeit
    Darüber hinaus müssen die Daten korrekt sein, insbesondere, wenn sie für das Training eines Modells der generativen KI verwendet werden. Vor dem Einsatz generativer KI sollten Unternehmen prüfen, wie viel Vertrauen Führungskräfte und Mitarbeiter in bestehende Analysen, Berichte und/oder BI-Dashboards (Business Intelligence) haben. Lautet die Antwort »nicht viel«, sollte das Management in die Lösung dieser Probleme investieren, bevor Ressourcen in das Training von LLMs auf der Grundlage von Daten minderer Qualität investiert werden.
  • Sicherheit, IP-Schutz und Datenschutz
    Die Bedeutung der Datensicherheit ist für die meisten modernen Unternehmen kein Geheimnis, aber im kommenden Zeitalter der generativen KI könnten alle Schwachstellen in den bestehenden Abwehrmechanismen schnell aufgedeckt werden. Das Verhalten von LLMs ist nicht deterministisch oder exakt vorhersehbar – das liegt in der Natur ihrer Kreativität. Daher ist es schwierig, im Voraus zu wissen, wie böswillige Akteure ein LLM austricksen könnten, damit es geschützte Daten über ein Unternehmen oder seine Kunden preisgibt. Dies ist besonders problematisch, wenn ein Standard-LLM verwendet wird, das mit einer RAG erweitert wurde. Da das Modell häufiger mit geschützten Datenbanken interagiert, vervielfachen sich die Risiken einer möglichen Verletzung entsprechend. Obwohl diese Bedrohungen bis zu einem gewissen Grad unbekannt sind, sollte sichergestellt werden, dass Unternehmen, deren sensibelste Daten heute am besten geschützt sind, diesen Vorteil auch in die Ära der generativen KI mitnehmen.
  • Geschwindigkeit und Flexibilität
    Um das Potenzial der KI voll ausschöpfen zu können, benötigen Unternehmen nicht nur Datenpipelines, die das Rohmaterial für die LLM liefern können, sondern sie müssen auch darauf vorbereitet sein, die neu entstehenden Datenströme zu empfangen und zu speichern. Diese Datenarchitektur muss im Voraus entwickelt werden und flexibel genug sein, um einen Informationsfluss zu bewältigen, der in den kommenden Jahren linear oder sogar exponentiell ansteigen kann. Teure Data Warehouses oder sogar relationale Datenbankmanagementsysteme (RDBMS) könnten die Datenmenge, die kostengünstig gespeichert und verarbeitet werden kann, allmählich begrenzen. Es ist nicht zu früh, mit der Erforschung moderner Data-Warehouse-Architekturen zu beginnen, einschließlich skalierbarer Cloud-Objektspeichersysteme wie S3 oder GCS.

 

»Replay«-Fähigkeit

Je weiter die Zukunft voranschreitet, desto dringender und häufiger wird es notwendig sein, auf die Vergangenheit zurückzugreifen. Die Fähigkeit, frühere Versionen eines Datensatzes wiederherzustellen oder »abzuspielen«, ist für das Training, die Abstimmung und das Testen von LLMs buchstäblich unerlässlich. Selbst für Unternehmen, die den Einsatz eines bereits trainierten, abgestimmten und getesteten LLM in Erwägung ziehen, ist die Wiederherstellungsfähigkeit ihrer bestehenden Datensysteme ein nützlicher Indikator für die allgemeine Data Readiness auf dem Weg in das Zeitalter der generativen KI.

Dies gilt für alle hier genannten Metriken. Unternehmen, die nicht über gute Daten und eine gute Datenarchitektur verfügen, werden einen Wettbewerbsnachteil haben, wenn generative KI die Landschaft moderner Unternehmen verändert. Sie sollten daher den Aufbau einer soliden Datenbasis in Erwägung ziehen, bevor sie in ihr erstes LLM investieren. Umgekehrt sind Unternehmen, die ihre Daten bereits heute im Griff haben, gut aufgestellt, um nicht nur von den Vorteilen der generativen KI zu profitieren, sondern mit hoher Wahrscheinlichkeit auch von den nächsten großen Entwicklungen, die heute noch gar nicht vorstellbar sind.

Gregor Bieler, Head of Central Europe bei Cognizant

Gregor Bieler ist Head of Central Europe bei Cognizant. Er verfügt über umfangreiche internationale Expertise in der wettbewerbsintensiven ITK-Branche. Er war in den vergangenen Jahren als Investor und Vorstandsmitglied bei Unternehmen wie PartnersGroup, Apavari Software, Journee Technologies und Alterco tätig. Bieler ist ein Experte für digitale Technologien, insbesondere in den Bereichen SaaS, FinTech und E-Commerce, sowie in den Domänen Strategie, Vertrieb, Betrieb und Marketing. Bevor er seine Tätigkeit als Investor und Vorstandsmitglied aufnahm, konzentrierte sich Bieler hauptsächlich darauf, den kulturellen Wandel und Geschäftstransformationen voranzutreiben. Dies tat er unter anderem bei Microsoft, Unwire Group, Telefonica o2, PayPal und Logitech.

 

 

306 Artikel zu „Datenqualität KI“

Whitepaper: Wie KI die Finanzfunktion verändert – Utopien werden Wirklichkeit

Künstliche Intelligenz erobert die Welt – und die Wirtschaft. Und natürlich macht die Technologie auch vor der Finanzindustrie nicht Halt. Doch wie wirkt sich KI auf die Prozesse innerhalb eines Unternehmens aus? Wie können Banken, Versicherer oder Asset Manager von den Vorteilen profitieren? In einem aktuellen Whitepaper hat KPMG AG Wirtschaftsprüfungsgesellschaft die Zukunft der Finanzfunktion…

KI-Readiness ist Daten-Readiness: Datenintegration und die Verfügbarkeit nutzbarer Daten

64 % der befragten Führungskräfte nennen Datenintegration und die Verfügbarkeit nutzbarer Daten als oberste Investitionspriorität für KI und generative KI.   Als entscheidende Investitionsbereiche für die Nutzung von KI- und Generative-KI-Technologien sehen die befragten Führungskräfte des Reports »AI readiness for C-suite leaders« die Datenintegration, den sicheren Zugriff auf alle Datenquellen sowie die Fähigkeit, Daten aus…

Daten für KI effizient nutzen: Von der Ingestion bis zur Innovation

Es wird viel über das Training von KI-Modellen geschrieben, aber Datenwissenschaftler verbringen einen Großteil ihrer Zeit mit den Prozessen, die vor und nach dem Modelltraining ablaufen. In all diesen verschiedenen Phasen werden die Daten umgewandelt und erweitert. Um ein effektives und nützliches KI-Modell zu erstellen, müssen die Daten, die dem Modell zugrunde liegen, leicht zu…

KI im Marketing: Hyperpersonalisierst du schon oder A/B-testest du noch?

Kundinnen und Kunden das zu bieten, was ihr Herz höherschlagen lässt – dieses Ziel streben nicht nur Verkaufsprofis an, sondern auch Marketer. Die Wünsche der Kundschaft in den Mittelpunkt zu rücken und ihr an sämtlichen Touchpoints genau jene Informationen bereitzustellen, die sie wirklich braucht, ist die Königsklasse im datengetriebenen Marketing. Natürlich kann künstliche Intelligenz die…

Generative KI für zukunftsorientierte Unternehmen: IBM und SAP erweitern Partnerschaft

Neue Partnerschaft »Value Generation« soll Kunden eine höhere Produktivität ermöglichen und Innovationen mit neuen Funktionen für generative KI und branchenspezifischen Cloudlösungen bieten.   IBM und SAP haben heute ihre Vision für den Ausbau ihrer Partnerschaft angekündigt. In deren Rahmen sollen neue Funktionen für generative KI und branchenspezifische Lösungen entwickelt werden, damit Kunden zusätzlichen Mehrwert erschließen…

Der Unterschied von ethisch guter und ethisch schlechter KI

Die Unternehmen sind gefordert, ein Gleichgewicht zwischen Innovation und der Ethik des Fortschritts zu finden.   In der sich rasch entwickelnden Landschaft der Künstlichen Intelligenz (KI) wird die Unterscheidung zwischen „guter KI“ und „schlechter KI“ immer wichtiger – nicht nur in technologischer, sondern auch in ethischer und rechtlicher Hinsicht. Darauf weist die Spitch AG hin,…

Und plötzlich ist jeder KI-Experte und KI-Berater

Dr. Harald Schönfeld: »Viele Consultants nutzen die aktuelle Debatte um künstliche Intelligenz, um sich eine goldene KI-Nase zu verdienen. Doch die Unternehmen brauchen keine Powerpoint-Pinsler, sondern praxiserfahrene Umsetzer, die während der Einführung von KI-Systemen die Verantwortung dafür in den Betrieben übernehmen.«   »Die KI-Beratung läuft derzeit in eine völlig falsche Richtung«, warnt Dr. Harald Schönfeld,…

Vor- und Nachteile von KI: Was denken Arbeitnehmer?

https://de.statista.com/infografik/32054/umfrage-zu-den-vorteilen-und-nachteilen-von-ki-am-arbeitsplatz/ Künstliche Intelligenz (KI) am Arbeitsplatz ist in der deutschen Arbeitswelt aktuell ein viel diskutiertes Thema. Eine aktuelle Umfrage unter Arbeitnehmerinnen und Arbeitnehmer, durchgeführt von Bitkom Research, liefert dazu detaillierte Erkenntnisse. Im Fokus steht die Frage, inwieweit KI die Arbeitslandschaft verbessern oder verschlechtern könnte. Die Statista-Grafik zeigt die am häufigsten genannten Vor- und Nachteile. Etwa…

Nicht jede KI ist gleich intelligent

KI-Lösungen können nur so wertvoll, einzigartig und nützlich sein, wie Menge, Qualität und Vielfalt der verfügbaren Trainingsdaten. Dies bedeutet für Unternehmen, dass sie jetzt Methoden benötigen, um ihre Daten in einem Workflow zu speichern, der eine Analyse, Katalogisierung und Kennzeichnung all ihrer Daten ermöglicht. Dies erfordert eine End-to-End-Infrastruktur für unstrukturierte Daten, die sich an neue…

Microsoft Copilot: Wie Partner vom Hype um generative KI profitieren können

Mit dem »Copilot« integriert Microsoft generative KI in alle Tools und Produkte von Microsoft 365. Die Leistungsfähigkeit und Vorteile des intelligenten Assistenten sind beeindruckend, dennoch ist der Vertrieb für Partner kein Selbstläufer.   Seit der kostenlosen Verfügbarkeit von ChatGPT ist die Begeisterung für generative KI ungebrochen. Einer Umfrage des Marktforschungsinstituts Gartner aus November 2023 zufolge…

KI-Trends: Finanzchefs herausgefordert, aber experimentierfreudig

Bei KI-Innovationen mitzuhalten ist für leitende Finanzexpertinnen und -experten eine größere Herausforderung als Lieferkettenunterbrechungen, wirtschaftliche Unsicherheit und geopolitische Ungewissheit.   Im internationalen Vergleich sehen Finanzleiter in Deutschland häufiger eine Herausforderung darin, mit den Fortschritten bei KI-Technologien mitzuhalten. Über die Hälfte der hierzulande befragten Unternehmen (54 %) sah darin eins der größten Hindernisse für Finanzleiter in…

Umrüstung der IT-Abteilung als Priorität für den KI-Erfolg

In die Fortbildung investieren, oder die Mitarbeitenden umschulen. Das ist die Frage, die viele Unternehmen sich regelmäßig stellen müssen. Obwohl laut der Society for Human Resource Management (SHRM) 53 % der Unternehmen die Fortbildung und Umschulung ihrer Mitarbeitenden im Jahr 2024 als Priorität ansehen, waren im Jahr 2023 nur 21 % damit zufrieden. Um erfolgreich…

Unternehmen sind (noch) nicht bereit, um generative KI erfolgreich einzuführen

Datensilos und Datenqualität sind (überwindbare) Herausforderungen, wenn IT-Teams weltweit ihre Data Stacks auf generative KI vorbereiten.   Eine neue Studie von Alteryx, der AI Platform for Enterprise Analytics, zeigt, dass Unternehmen aufgrund ihrer Daten noch nicht bereit sind, das Potenzial generativer künstlicher Intelligenz (KI) auszuschöpfen [1]. Die Ergebnisse der Studie »Data Stack Evolution: Legacy Challenges…

Unternehmen im Dschungel der KI-Regularien: Konsequente Beachtung muss volle Aufmerksamkeit erhalten

  Zwischen KI-Innovationen und den regulatorischen Herausforderungen gibt es eine dynamische Schnittmenge, mit welcher sich Unternehmen aktuell konfrontiert sehen. Denn die Regierungen der unterschiedlichen Länder verfolgen keine einheitlichen Ansätze in der KI-Regulatorik. Für einen erfolgreichen Einsatz von künstlicher Intelligenz müssen global tätige Unternehmen daher die sich ändernden Regularien genau im Auge behalten und das nicht…

Herausforderungen, ROI, Kosten & Co: Wie wird KI in Unternehmen wirklich eingesetzt?

Fivetran, der Anbieter für Data Movement, präsentiert die Ergebnisse einer Umfrage, die zeigt: 81 % der befragten Unternehmen vertrauen ihren KI/ML-Ergebnissen, obwohl sie zugeben, fundamentale Datenineffizienzen zu haben. Sie verlieren im Durchschnitt 6 % ihres weltweiten Jahresumsatzes, beziehungsweise 406 Millionen US-Dollar bei einem durchschnittlichen Jahresumsatz von 5,6 Milliarden US-Dollar der befragten Unternehmen. Die Ursache sind…

Gener-AI-tion KI: Büroangestellte nutzen generative AI häufiger (als gedacht)

Während viel über die Zukunft der künstlichen Intelligenz (KI) diskutiert wird, etwa ob durch ihren Einsatz künftig Arbeitsplätze wegfallen werden, zeichnet sich in der deutschen Arbeitswelt bereits ein deutlicher Trend ab. So hat eine Studie von Veritas Technologies ergeben, dass bereits mehr als die Hälfte (57 Prozent) der befragten deutschen Büroangestellten generative KI mindestens einmal…

KI in der Praxis: Best Practices zum Einsatz von künstlicher Intelligenz

Es ist nicht leicht, mit den neuesten KI-Trends Schritt zu halten, geschweige denn, sie gewinnbringend in die Praxis umzusetzen. Für den Visionary Voices AI Guide spricht Qlik ab sofort regelmäßig mit Datenexperten aus der ganzen Welt, um herauszufinden, wie sie konkrete KI-Techniken im Geschäftsalltag anwenden. Welche Erkenntnisse sich aus den ersten Gesprächen ergeben haben, hat…

Mit der richtigen KI-Strategie die Kunden wirklich erreichen

Die Daten machen den Unterschied, ob personalisiertes Customer Engagement erfolgreich ist.   Anwendungen auf Basis von künstlicher Intelligenz (KI) haben das Potenzial, die Interaktionen von Marken mit Kunden tiefgreifend zu verändern und so das Customer Engagement zu stärken. Mit KI-Lösungen sind Unternehmen künftig in der Lage, ihre Entscheidungsfindung datengestützt zu treffen und zu beschleunigen, aber…

Riskanter Balanceakt: Führungskräfte fordern Geschwindigkeit bei KI, IT pocht auf Sicherheit

Die Führungskräfte machen Druck auf die IT-Abteilungen für eine schnelle Einführung generativer KI. Die IT-Abteilungen wiederum fordern einen stärkeren Fokus auf Datensicherheit und -qualität. Es gilt Gleichgewicht zwischen Geschwindigkeit, Geschäftswert und Sicherheit herzustellen.   Eine kürzlich von Salesforce durchgeführte weltweite Umfrage unter 600 IT-Fachleuten hat ergeben, dass die Geschäftsleitung von der IT-Abteilung erwartet, generative KI schnellstmöglich…

GenAI im Unternehmenseinsatz – Wenn die KI anklopft

Die Begeisterung über das Potenzial der generativen KI ist ungebrochen. Von Start-ups über Mittelständler bis hin zu Großkonzernen – viele denken derzeit über den Einsatz von GenAI-Tools nach. Die Unternehmen erhoffen sich von der Automatisierung und der damit verbundenen Effizienzsteigerung spürbare Vorteile, jedoch  birgt die Umsetzung von KI-Projekten auch einige Risiken und Herausforderungen.