Auf dem Weg zur generativen KI – Wie KI-fähig sind die Daten überhaupt?

Mit generativer KI werden Prozesse möglich, die vor kurzem noch undenkbar waren. Kein Wunder, dass sich Unternehmen aller Größen und Branchen deutliche Effizienzsteigerungen und damit Kosteneinsparungen versprechen. Ihr volles Potenzial kann die Technologie jedoch nur entfalten, wenn das Rohmaterial stimmt. Quantität, Qualität und Zugänglichkeit der Daten entscheiden maßgeblich über den Erfolg eines KI-Projekts.

Künstliche Intelligenz lebt von Daten. Nur wenn genügend vorhanden sind, können KI-Systeme lernen. KPIs etwa sind umso aussagekräftiger, je weiter sie in die Vergangenheit reichen. Erst dann wird eine historische Entwicklung einzelner Prozesse erkennbar, aus der die Technologie gewinnbringende Schlüsse ziehen kann. »Nicht kleckern, sondern klotzen« sollte also die Devise lauten – denn auch vermeintlich veraltete Informationen können einen echten Mehrwert liefern. Industriebetriebe beispielsweise sind immer wieder erstaunt, wie eigentlich als nutzlos erachtete Daten aus Fertigungsanlagen im Kontext von KI und Machine Learning plötzlich relevant werden. Grundsätzlich gilt: Das analytische Potenzial liegt in der Verknüpfung unterschiedlichster Datenquellen und dem Erkennen von Zusammenhängen.

Unstrukturierte Daten sind als Ressource begehrter denn je. An Daten mangelt es den wenigsten Unternehmen. Im Gegenteil – die Quellen sind so vielfältig wie die Formate: von Textdateien, Excel-Dokumenten, Bildern, Videos und Audiodateien bis hin zu Verkaufskennzahlen, Maschinen- sowie CRM-Daten und dem Monitoring der eigenen Homepage. Immer mehr dieser Informationen liegen unstrukturiert vor – laut einer aktuellen Forrester-Studie wird sich ihr Anteil bis 2024 sogar verdoppeln [1]. Unstrukturierte Datenquellen müssen jedoch erst erschlossen, aufbereitet und klassifiziert werden, damit die KI überhaupt ihre Arbeit verrichten kann. Erschwerend kommt ein weiteres Problem hinzu: Datensilos, in denen relevante Informationen wie die Nadel im Heuhaufen verschwinden. Viele dieser Silos sind bewusst geschaffen worden – etwa aus Datenschutzgründen oder weil sich einzelne Abteilungen dagegen entschieden haben, Informationen zu teilen. Wenn dann noch unterschiedliche Systeme im Einsatz sind und die Daten an den verschiedensten Orten liegen, wird – neben der Herausforderung ungenauer und redundanter Datensätze – der notwendige Informationsaustausch blockiert und damit die KI in ihrer Entscheidungsfindung ausgebremst.

In der Folge beschäftigen sich Data Scientists mit einer Aufgabe, für die sie eigentlich überqualifiziert und auch zu teuer sind: Laut IDC entfallen mehr als 80 Prozent des Gesamtaufwands bei der Datenverarbeitung auf die Verwaltung, Recherche, Aufbereitung und Sicherung des Materials, sodass nicht einmal 20 Prozent für die eigentliche Analyse übrigbleiben [2]. Je fragmentierter oder unstrukturierter die Daten sind, desto höher ist der Zeit- und Arbeitsaufwand für die beiden Schritte Export und Bereinigung.

Der Mehrwert einer guten Datenaufbereitung. Jede gute Datenaufbereitung setzt zunächst eine Explorationsphase voraus, denn nur so lässt sich das Ausgangsmaterial beurteilen und ein grundlegendes Verständnis für die Materie erlangen. Anschließend folgen Maßnahmen, um Informationen für KI-Anwendungen nutzbar zu machen, die Qualität spürbar zu verbessern und so die optimale Grundlage für die spätere Modellierung zu schaffen. Sogenannte Data Engineers und Data Analysts kümmern sich darum, dass die Datensätze von Fehlern, Dubletten und Abweichungen bereinigt werden. Im nächsten Schritt werden sie als Vorbereitung für die nachfolgende Arbeit der Data Scientists extrahiert. Dazu gehören auch das Entwickeln neuer Features und die Selektion relevanter Merkmale.

Unabhängig davon, für welchen Datenarchitekturansatz sich Unternehmen entscheiden, müssen die vorhandenen Daten darüber hinaus sauber und einfach exportiert werden können. Wer ein KI-Modell entwickelt, benötigt also ein System mit möglichst vielen Schnittstellen zu den Programmen von ML- und KI-Anbietern. Der Mehrwert einer modernen Data-Preparation-Lösung kommt aber nicht nur den Prozessen zugute, sondern auch Aspekten wie Data Governance und Compliance. Der Schutz personenbezogener Daten ist eine unabdingbare Voraussetzung bei der Nutzung künstlicher Intelligenz: Um Verstöße gegen die DSGVO zu vermeiden, müssen diese Daten – ebenso wie sensible Unternehmensinterna – so früh wie möglich erkannt, aussortiert, pseudonymisiert oder zugriffsgeschützt werden.

Ohne die richtige Infrastruktur scheitert die KI-Reise. Darüber hinaus erfordert die Analyse und Klassifikation der Daten ebenso wie die Trainings- und Produktionsphase der KI die richtige Hardware-Infrastruktur. Ausreichend Rechenleistung ist essenziell, und keinesfalls dürfen die Systeme dafür das Budget unnötig belasten. Ansonsten besteht nämlich das Risiko, dass der erhoffte ROI durch die Kosten für die Infrastruktur aufgefressen wird. GPU-Instanzen wiederum helfen, die Anlernzeit von Modellen zu verkürzen. Gleichzeitig werden sie für Algorithmen mit niedrigen Latenzanforderungen benötigt, etwa für Echtzeitanwendungen in der Fertigung. Die Datenverarbeitung im Rahmen von künstlicher Intelligenz ist zudem sehr rechen- und damit zeitintensiv: Um die Ressourcen optimal zu nutzen, sollten sich die Compute- und Storage-Instanzen in der Regel im selben Rechenzentrum wie die Daten befinden.

Für die methodische Umsetzung hinsichtlich der Speicherung stehen wiederum verschiedene Architekturansätze zur Verfügung – vom klassischen Data Warehouse über Data Lake bis hin zu Data Mesh. Ein Data Warehouse speichert Informationen in einem strukturierten Format und stellt quasi ein zentrales Repository für vorverarbeitete Daten dar. Im Vergleich dazu ist ein Data Lake die deutlich flexiblere Alternative, wenn es um die Verknüpfung der unterschiedlichsten Informationsquellen geht. In diesem »Daten-See« lassen sich digitale Informationen unabhängig von Quelle, Relevanz und aktuellem Bedarf speichern. Sie behalten ihre ursprüngliche Form und bekommen erst eine Struktur, wenn sie gebraucht und ausgelesen werden. Hinter Data Mesh steht wiederum ein dezentrales Konzept, bei dem ein Team die Verantwortung für die Entwicklung und den Betrieb von Datenprodukten innerhalb ihrer fachlichen Domäne trägt.

Sofort einsatzbereit: validierte Designs. Angesichts der zahlreichen Herausforderungen auf der KI-Reise ist die Verwendung validierter Designs der einfachste Weg, ein entsprechendes Projekt umzusetzen. Diese vereinen eine Software-Suite für den KI-Lebenszyklus mit Frameworks und vortrainierten KI-Modellen sowie Server-Hardware inklusive Beschleuniger und Speicher quasi in einem Produkt. Ein zentraler Bestandteil eines solchen Validated Design ist oftmals eine Query-SQL-Engine, mit der die riesigen Datenmengen aus Data Warehouses, Data Lakes oder Data Meshes innerhalb kürzester Zeit verarbeitet und analysiert werden können. Die derzeit wahrscheinlich schnellste Engine Starburst basiert auf einer sogenannten MPP-Architektur (Massively Parallel Processing). Prozesse werden bei dieser Architektur von mehreren Einheiten parallel ausgeführt. Dadurch sind MPP-Architekturen in der Lage, massive Datenmengen problemlos zu verarbeiten und Analysen wesentlich schneller bereitzustellen. Auch das sonst notwendige Kopieren oder Verschieben entfällt, und über Enterprise-Konnektoren lassen sich die verschiedensten Datenquellen anbinden. Das ermöglicht problemlose Big-Data-Analysen ohne Cubes, Extracts oder Aggregationstabellen. Aufwändige ETL-Prozesse (Extract, Transform, Load) gehören damit der Vergangenheit an.

Fakt ist: Die Gefahr, dass KI-Projekte scheitern, steigt angesichts einer schlechten Datenaufbereitung. Deshalb muss vor der Implementierung eines Modells sichergestellt werden, dass die Daten exportierbar, konsistent und qualitativ hochwertig sind. Und auch nur wenn Brücken zwischen bisher abgeschotteten Silos geschlagen werden, können Unternehmen das Potenzial generativer KI ausschöpfen.

 

Dennis Scheutzel,
Director & General Manager
Unstructured Data Solutions and AI
bei Dell Technologies Deutschland
[1] https://www.forrester.com/report/predictions-2024-data-and-analytics/RES179927
[2] https://www.idc.com/getdoc.jsp?containerId=US46297420
Illustration: © Gorodenkoff, Suryadi suyamtina | shutterstock.com