Illustration Absmeier foto magnific ki

Simulation wird zur Plattformfrage: Durch die gleichzeitige Nutzung klassischer HPC‑Simulationen und AI Solver entstehen neue Anforderungen an Architektur, Betrieb und Ressourcensteuerung im Rechenzentrum.
Ressourcenkonflikte im Tagesbetrieb: Parallel laufende Simulations‑, Trainings‑ und Inferenzjobs konkurrieren um GPUs, Storage und I/O‑Leistung – Engpässe entstehen weniger durch Kapazität als durch fehlende Trennung und Koordination.
Daten und Scheduling als kritische Faktoren: Hohe Schreiblasten aus Simulationen und zufällige Lesezugriffe aus KI‑Trainings verlagern den Flaschenhals in Storage und Netzwerk; starre Warteschlangen bremsen kurze KI‑Jobs aus.
Integrierte Steuerung entscheidet über Effizienz: Erst die durchgängige Orchestrierung von Simulation, Training und Inferenz ermöglicht automatisierte Workflows, bessere Ressourcennutzung und eine klare Plattformstrategie.
KI ergänzt, ersetzt nicht: AI‑Solver liefern Effizienzgewinne innerhalb bekannter Parameterbereiche, erfordern aber kontinuierliche Validierung durch Referenzsimulationen – der Hauptumbruch liegt im Betrieb, nicht im Modell.

Hochleistungsrechner sind seit Jahrzehnten das Rückgrat komplexer Simulationen. Für viele IT-Teams sind sie heute jedoch nicht mehr nur ein wissenschaftliches Werkzeug, sondern ein betrieblicher Engpass – geprägt von steigenden GPU-Anforderungen, wachsendem Energiebedarf und zunehmendem Druck durch zusätzliche KI-Workloads. In der Fusionsforschung, der Astrophysik oder in industriellen CFD-Anwendungen werden physikbasierte Modelle numerisch gelöst, stark parallelisiert und über viele Rechenknoten skaliert. Hohe Genauigkeit geht dabei traditionell mit langen Laufzeiten und entsprechend komplexer Infrastruktur einher.

Dieses Bild beginnt sich zu verändern. Ergänzend zur klassischen Simulation kommen zunehmend AI Solver zum Einsatz. Dabei handelt es sich um KI-Modelle, die aus bereits berechneten Simulationen lernen und deren Ergebnisse für vergleichbare Fragestellungen direkt nachbilden können. Aufgaben, die früher Stunden oder Tage Rechenzeit benötigten, lassen sich so in Sekunden durchspielen.

Der Druck entsteht dabei nicht nur durch neue Simulationsmethoden, sondern durch die parallele Einführung von KI-Workloads in Umgebungen, die ursprünglich für rein numerische Lasten ausgelegt wurden. Für IT- und Infrastrukturteams bedeutet das: Simulation besteht heute nicht mehr aus einem homogenen HPC-Workload, sondern aus mehreren Rechenarten mit sehr unterschiedlichen Anforderungen. Damit wird Simulation von einer reinen Rechenaufgabe zu einer Plattformfrage – mit direkten Auswirkungen auf Architektur und Betrieb im Rechenzentrum.

Betrieb unter Last

Sobald klassische Simulationen und AI-Solver-Workloads parallel betrieben werden, zeigen sich die Effekte direkt im Tagesbetrieb. In Umgebungen, in denen hochaufgelöste Plasma- oder Teilchensimulationen berechnet werden, belegen einzelne Aufgaben oft mehrere hundert oder tausend GPUs über viele Stunden hinweg. Nach Abschluss eines Laufs werden die erzeugten Felder, Zustandsvektoren oder Strömungsdaten in das parallele Dateisystem geschrieben. Genau diese Datensätze dienen anschließend als Trainingsbasis für KI-Modelle, die beispielsweise Endzustände vorhersagen oder sich an Zwischenwerte für neue Parameterkombinationen annähern.

In der Praxis führt das dazu, dass Trainingsläufe häufig in Zeitfenstern starten, in denen noch große Simulationsjobs laufen. Zwar sind im Rechenzentrum noch GPUs vorhanden, sie können aber nicht genutzt werden, weil sie bereits fest an laufende Simulationsjobs gebunden sind. Umgekehrt kann ein kurzfristig gestarteter Trainingsjob GPUs belegen, die eigentlich für den nächsten Simulationslauf vorgesehen waren. Dieser findet dann nicht mehr genügend zusammenhängende Rechenressourcen und muss warten. Der Engpass entsteht damit nicht durch die Gesamtzahl der GPUs, sondern durch die fehlende Trennung zwischen exklusiv genutzten und flexibel teilbaren Ressourcen.

Ein ähnliches Bild zeigt sich auf der Datenebene. Hochaufgelöste Simulationen erzeugen pro Lauf mehrere Terabyte an Rohdaten, die zunächst sequenziell in das parallele Filesystem geschrieben werden. KI-Trainingsprozesse greifen anschließend wiederholt und parallel auf genau diese Dateien zu, oft in kleineren, zufälligen Zugriffsmustern. In der Praxis bedeutet das, dass ein laufender Checkpoint-Vorgang die Trainingspipelines verlangsamen kann oder umgekehrt ein intensiver Trainingslauf die I/O-Leistung für nachfolgende Simulationen reduziert. Ohne getrennte Pfade für sequenzielle Schreiblast und verteilte Lesezugriffe verschiebt sich der Flaschenhals vom Rechenknoten in das Storage- und Netzwerksystem.

Auch im Scheduling wird der Unterschied sichtbar. Ein typischer Ablauf besteht aus einem langen Simulationslauf, gefolgt von einem Trainingsschritt und mehreren Inferenzläufen, mit denen neue Parameterkombinationen oder Szenarien bewertet werden. Dieser Zyklus wiederholt sich mehrfach am Tag. Wenn alle drei Schritte über dieselbe Warteschlange und dieselben Priorisierungsregeln laufen, kommt es zu Situationen, in denen ein kurzer Inferenzjob hinter einem mehrstündigen Simulationslauf blockiert wird oder ein Trainingsjob den Start eines geplanten Simulationsfensters verzögert.

Der Effizienzgewinn durch AI Solver zeigt sich in diesen Umgebungen nicht auf der Ebene einzelner Jobs, sondern über den gesamten Simulationszyklus. Statt jede neue Parameterkombination numerisch zu berechnen, werden nur ausgewählte Referenzläufe gerechnet und anschließend durch das KI-Modell ergänzt. Der infrastrukturelle Aufwand verlagert sich damit von reiner Rechenzeit hin zu Trainingskapazität, Datenhaltung und kontinuierlichem Betrieb der Modelle.

Steuerung und Plattformstrategie

Auf Systemebene stellt sich damit die Frage, wie der Gesamtworkflow technisch gesteuert wird. In vielen Umgebungen existieren zwei Steuerungsebenen nebeneinander: klassische HPC-Scheduler, die große Simulationsjobs über Warteschlangen und feste Ressourcenblöcke verteilen, und separate Orchestrierungsschichten für KI-Workloads, die Trainingsläufe und Modelle als Services verwalten. Solange beide Ebenen unabhängig arbeiten, bleibt der Simulationszyklus fragmentiert. Erst wenn Training, Inferenz und Referenzrechnung als zusammenhängender Ablauf automatisiert verknüpft werden, lassen sich manuelle Übergaben vermeiden und Ressourcen koordiniert belegen.

Diese Steuerungsebene beeinflusst direkt die Plattformstrategie. Lange, datenintensive Simulationsläufe profitieren von Umgebungen, in denen Rechenleistung und Speicher eng gekoppelt sind. Kurzlebige Trainings- und Inferenzphasen lassen sich dagegen flexibler auf kleineren GPU-Pools oder in hybriden Infrastrukturen betreiben. In der Praxis folgt die Entscheidung dabei weniger einem reinen Kostenvergleich als der Frage, wo sich Daten und Modelle effizienter bewegen lassen. Der Ort der Berechnung wird zunehmend vom Ort der Daten bestimmt, nicht umgekehrt.

Damit diese Entscheidungen im Betrieb nachvollziehbar bleiben, braucht es messbare Steuerungsgrößen, die über klassische Auslastungswerte hinausgehen. Statt nur GPU-Stunden oder Job-Laufzeiten zu erfassen, rücken Kennzahlen wie Energie pro Simulationszyklus, Durchlaufzeit pro Iteration oder die Anzahl belastbarer Ergebnisse pro Trainingslauf in den Fokus. Ergänzt um eine saubere Versionierung von Simulationsdaten und Modellen entsteht so eine technische Grundlage, um Reproduzierbarkeit sicherzustellen und bei Abweichungen gezielt auf frühere Modellstände oder Referenzläufe zurückzugreifen.

Trotz aller Effizienzgewinne haben AI Solver klare Grenzen. Sie liefern belastbare Ergebnisse nur innerhalb des Bereichs, den sie aus bestehenden Simulationen gelernt haben. Ändern sich Randbedingungen, Auflösung oder physikalische Modellannahmen, bleibt die klassische Simulation unverzichtbar. In der Praxis werden KI-Ergebnisse daher regelmäßig gegen neue Referenzläufe geprüft, insbesondere in sicherheits- oder qualitätskritischen Umgebungen.

AI-gestützte Simulationen ersetzen klassische Modelle damit nicht, sondern erweitern sie. Der eigentliche Umbruch findet weniger im Solver als im Betrieb statt. Rechenzentren werden zu Plattformen, die numerische Simulation, Training und produktive Inferenz gleichzeitig tragen, steuern und absichern müssen. Genau an dieser Stelle entscheidet sich, ob der Einsatz von KI in der Simulation zu einem nachhaltigen Effizienzgewinn wird oder zu einer zusätzlichen Komplexität im Betrieb.

Moritz Manthey, Sr. HPC & AI Sales Manager bei Lenovo

270 Artikel zu „HPC“

News | TechTalk | Infrastruktur | Künstliche Intelligenz | Rechenzentrum

TechTalk: So verändern künstliche Intelligenz und HPC die IT-Infrastrukturen der Welt

2. August 2025

Welche infrastrukturellen Veränderungen bzw. Anpassungen gehen mit dem Leistungshunger von KI- und HPC-Anwendungen und -Workloads einher, und was leistet Eviden in diesem Kontext? Darüber haben wir uns mit Julien Camiade vom französischen KI-Lösungsanbieter Eviden auf der ISC High Performance 2025 ausgetauscht. Herausgekommen ist dieses Video, in dem Julien unter anderem auf die Green 500-Liste der energieeffizientesten Supercomputer der Welt verweist.