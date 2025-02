Am 30. November 2022 wurde ChatGPT von OpenAI der Welt vorgestellt, der Rest ist Geschichte – im wahrsten Sinne des Wortes. Seitdem sind zwei Jahre vergangen, und das Interesse an KI ist rasant gestiegen. Dies hat zu einer mehrfachen Steigerung der Marktkapitalisierung von Nvidia, dem führenden Hersteller von Grafikprozessoren, geführt. Auch andere Player wurden geweckt, nicht zuletzt DeepSeek aus China. Parallel dazu überschlagen sich die Meldung um geplante Milliardeninvestitionen rund um KI-Infrastruktur.

Markus Grau von Pure Storage analysiert den Hype und fragt, wohin die jüngsten Meldungen und Entwicklungen führen könnten.

Es fühlt sich alles ganz anders an als die früheren KI-Durchbrüche in den letzten 70 Jahren, vom Turing-Test über die Niederlagen von Schachgroßmeistern gegen die Maschine bis hin zum autonomen Fahren, gefolgt vom anhaltenden Boom der generativen KI. Das Spiel hat sich grundlegend verändert, aber beruht immer noch auf bestimmten grundlegenden Konzepten. Seit vielen Jahren basieren KI-Fortschritte auf drei Schlüsselentwicklungen: erstens leistungsstärkere Rechenressourcen in Form von GPUs, zweitens verbesserte Algorithmen oder Modelle, im Fall der generativen KI die Transformer-Architektur sowie Large Language Models (LLMs), und drittens Zugang zu riesigen Datenmengen. Auf einer sehr hohen Ebene umfassen die Phasen eines KI-Projekts die Datenerfassung und -aufbereitung, die Modellentwicklung und -schulung sowie die Modellbereitstellung, auch bekannt als Inferenz.

Alles dreht sich um die Daten

Datenerfassung und -aufbereitung dürfen nicht übersehen werden: Gute, relevante und »unvoreingenommene« Daten sind der Schlüssel zu einem erfolgreichen KI-Projekt. Es wird oft darauf hingewiesen, dass Unternehmen Schwierigkeiten haben, ihre Daten zu verstehen, die Datenhoheit zu ermitteln und Silos aufzubrechen, damit diese Daten effektiv genutzt werden können. Ohne Zugang zu qualitativ hochwertigen Daten ist der Erfolg einer Initiative unwahrscheinlich. Immer mehr Unternehmen verwenden in ihren KI-Projekten multimodale Daten, nicht nur Text, sondern auch Audio, Bilder und sogar Videos. Die Datenmenge und damit die zugrundeliegenden Speicheranforderungen sind erheblich.

Training des Modells

Die Trainingsphase erfolgt in der Regel auf eine von zwei Arten. Beim grundlegenden Modelltraining wird eine riesige Datenmenge genutzt, um ein KI-Modell von Grund auf zu erstellen und dieses Modell iterativ zu trainieren und ein allgemeines Modell für die Verwendung zu erstellen. Dies wird in der Regel von großen Technologieunternehmen mit vielen Ressourcen durchgeführt. Meta hat kürzlich über das Training seines Open-Source-Modells Llama 3.1 mit 405 Milliarden Parametern und über 15 Billionen Token berichtet. Dies nahm etwa 40 Millionen GPU-Stunden auf 16.000 GPUs in Anspruch. Die lange Trainingszeit für das Modell verdeutlicht einen wichtigen Aspekt beim Training großer Modelle: häufiges Checkpointing, um eine Wiederherstellung nach Fehlern zu ermöglichen. Bei großen Modellen ist es unerlässlich, dass der für das Checkpointing verwendete Speicher über eine sehr hohe Schreibleistung und -kapazität verfügt.

Der zweite Trainingsansatz ist die Modell-Feinabstimmung. Dabei wird ein bestehendes Modell, bei dem ein anderer Beteiligter die Hauptarbeit geleistet hat, verwendet und durch weiteres Training domainspezifische Daten auf dieses Modell angewendet. Auf diese Weise profitiert ein Unternehmen von seinem eigenen personalisierten Modell, muss es aber nicht von Grund auf neu trainieren.

Unabhängig vom Ansatz erfordert das Training eine massiv parallele Verarbeitung mit GPUs, was einen hohen Durchsatz und Zugriffsgeschwindigkeiten erfordert, um große Datensätze auf effiziente Weise zu bewältigen. Die Datenspeicherung für das KI-Training muss daher eine sehr hohe Leistung bieten, nicht zuletzt, um die GPUs mit Daten zu versorgen, Skalierbarkeit für die Verwaltung großer Trainingsdatensätze und Zuverlässigkeit angesichts der Bedeutung und der Kosten von Trainingsmodellen.

Überführung in die Produktion

Sobald ein Modell trainiert wurde und seine Leistung den Anforderungen entspricht, wird es in die Produktion überführt. Zu diesem Zeitpunkt verwendet das Modell Daten, die es zuvor noch nicht gesehen hat, um Schlussfolgerungen zu ziehen oder Erkenntnisse zu gewinnen. Dies wird als Inferenz bezeichnet und ist der Zeitpunkt, an dem der Wert aus einer KI-Initiative abgeleitet wird. Der Ressourcenverbrauch und die Kosten, die mit der Inferenz verbunden sind, stellen die des Trainings in den Schatten, da die Inferenz ständig und potenziell in großem Umfang Rechen- und Speicherkapazitäten beansprucht, wie im Falle von Millionen von Benutzern, die auf einen Chatbot für den Kundenservice zugreifen.

Der zugrundeliegende Speicher für die Inferenz muss eine hohe Leistung erbringen. Diese ist der Schlüssel für die Bereitstellung zeitnaher Ergebnisse sowie für eine einfache Skalierung ist, um die Speicheranforderungen der Daten zu erfüllen. Die Daten werden in das Modell für die Aufzeichnung eingespeist, und um Daten für das erneute Training bereitzustellen. Die Qualität der Ergebnisse aus der Inferenz steht in direktem Zusammenhang mit der Qualität des trainierten Modells und des Trainingsdatensatzes. Generative KI hat die Genauigkeit der Inferenz auf den Kopf gestellt. Aufgrund der Natur der generativen KI sind Ungenauigkeiten, sogenannte Halluzinationen, sehr wahrscheinlich. Diese Ungenauigkeiten haben zu Problemen geführt, die häufig in die Schlagzeilen geraten sind.

Verbesserung der Genauigkeit

Benutzer von ChatGPT werden die Bedeutung der in das Modell eingegebenen Abfrage erkennen. Eine gut strukturierte, umfassende Abfrage kann zu einer viel genaueren Antwort führen als eine knappe Frage. Dies hat zum Konzept des »Prompt Engineering« geführt, bei dem ein großer, gut strukturierter Datensatz als Abfrage an das Modell gesendet wird, um die optimale Ausgabe zu erzielen.

Ein alternativer Ansatz, der immer wichtiger wird, ist Retrieval Augmented Generation (RAG). RAG ergänzt die Abfrage um die eigenen Daten in Form eines anwendungsspezifischen Kontexts, der direkt aus einer Vektordatenbank wie Chroma oder Milvus stammt. Im Vergleich zum Prompt Engineering liefert RAG bessere Ergebnisse und reduziert die Wahrscheinlichkeit von Halluzinationen erheblich. Ebenso wichtig ist die Tatsache, dass aktuelle, zeitnahe Daten mit dem Modell verwendet werden können, anstatt auf einen historischen Stichtag beschränkt zu sein.

RAG ist darauf angewiesen, die Daten eines Unternehmens zu vektorisieren, damit sie in die Gesamtarchitektur integriert werden können. Vektordatenbanken verzeichnen im Vergleich zur Quelle oft ein signifikantes Wachstum der Datensatzgröße, das bis zu 10-mal so hoch sein kann, und sind sehr leistungsempfindlich, da die Benutzererfahrung direkt mit der Antwortzeit der Vektordatenbankabfrage zusammenhängt. Daher spielt der zugrundeliegende Speicher in Bezug auf Leistung und Skalierbarkeit eine wichtige Rolle bei der erfolgreichen Implementierung von RAG.

Das Energieproblem der KI

In den letzten Jahren sind die Stromkosten weltweit in die Höhe geschossen, und es gibt keine Anzeichen für eine Verlangsamung. Darüber hinaus hat der Anstieg der generativen KI dazu geführt, dass der Energiebedarf von Rechenzentren um ein Vielfaches gestiegen ist. So schätzt die IEA, dass der Stromverbrauch von KI, Rechenzentren und Kryptowährungen im Jahr 2022 fast zwei Prozent des weltweiten Energiebedarfs ausmachte – und sich dieser Energiebedarf bis 2026 verdoppeln könnte. Dies ist zum Teil auf den hohen Strombedarf von GPUs zurückzuführen, die Rechenzentren belasten und 40 bis 50 Kilowatt pro Rack benötigen – weit über die Kapazität vieler Rechenzentren hinaus.

Die Steigerung der Effizienz im gesamten Rechenzentrum ist von entscheidender Bedeutung, d. h. eine Infrastruktur wie die All-Flash-Datenspeicherung ist für die Verwaltung von Strom und Platz unerlässlich, da jedes Watt, das bei der Speicherung eingespart wird, dazu beitragen kann, mehr GPUs mit Strom zu versorgen. Mit einigen All-Flash-Speichertechnologien ist es möglich, den Energieverbrauch um bis zu 85 Prozent zu senken und bis zu 95 Prozent weniger Rack-Platz gegenüber Wettbewerbslösungen zu belegen. Daraus resultiert ein erheblicher Mehrwert auf Speicherseite als wichtiger Bestandteil des KI-Ökosystems.

Datenspeicherung als Teil des KI-Puzzles

Das Potenzial von KI ist nahezu unvorstellbar. Damit KI-Modelle jedoch Ergebnisse liefern können, ist ein sorgfältiger Ansatz beim Training erforderlich, sei es beim grundlegenden Training oder bei der Feinabstimmung, um zu einer genauen und skalierbaren Inferenz zu gelangen. Die Einführung von RAG kann genutzt werden, um die Ausgabequalität noch weiter zu verbessern.

Es ist klar, dass Daten in allen Phasen eine Schlüsselkomponente sind. Flash-Speicher ist unerlässlich, um die transformative Wirkung von KI auf Wirtschaft und Gesellschaft zu entfalten, und bietet eine unübertroffene Leistung, Skalierbarkeit und Zuverlässigkeit. Flash unterstützt den Echtzeitzugriff von KI auf unstrukturierte Daten, erleichtert sowohl das Training als auch die Inferenz und reduziert gleichzeitig den Energieverbrauch und die CO 2 -Emissionen, was diese Technologie für eine effiziente und nachhaltige KI-Infrastruktur unverzichtbar macht.

