Flüssigkeitsgekühlte Rechenzentren ermöglichen eine effiziente Wärmeableitung und sind besonders für hochdichte KI- und HPC-Anwendungen geeignet, während sie gleichzeitig die Energieeffizienz steigern und Nachhaltigkeitsanforderungen erfüllen. Im Interview erklärt Clark Li, Country Manager von KAYTUS für die DACH-Region, warum umfassende Flüssigkeitskühlungstechnologien und grüne Prinzipien entlang des gesamten Produktlebenszyklus notwendig sind, um gesetzlichen Vorgaben und Umweltverantwortung gerecht zu werden. Im Vergleich zur Immersionskühlung bietet die Direktkühlung mit Kühlplatten Vorteile bei Kompatibilität, Kosten und Wartung, und die fortschreitende KI-Integration ebnet den Weg für selbstverwaltende Rechenzentren der Zukunft.
Was sind typische Anwendungsfälle für flüssigkeitsgekühlte Rechenzentren?
Flüssigkeitsgekühlte Rechenzentren bieten Vorteile wie eine hohe Wärmeableitungseffizienz, eine niedrige PUE (Power Usage Effectiveness) und Unterstützung bei der Bereitstellung hochdichter Systeme. Sie eignen sich besonders für Szenarien, in denen die herkömmliche Luftkühlung an ihre Grenzen stößt, wie:
Cluster für das Training und die Inferenz großer KI-Modelle: Das KI-Training basiert auf hochdichten Clustern mit Tausenden oder sogar Zehntausenden von GPU-Servern. Der Stromverbrauch eines einzelnen GPU-Servers kann 3.000 W überschreiten, wobei die Rack-Leistungsdichte über 50 kW liegt. Die Flüssigkeitskühlung leitet die Wärme direkt von den Chips ab, stabilisiert die GPU-Kerntemperaturen bei 40–60 °C und gewährleistet einen dauerhaften Volllastbetrieb der Cluster, während die PUE auf unter 1,1 gesenkt wird, was die Energiekosten während des Trainings erheblich senkt.
Hochleistungsrechenzentren (HPC): In HPC-Szenarien wie bei Wettervorhersagen, Luft- und Raumfahrtsimulationen, biopharmazeutischer Forschung & Entwicklung sowie Quantencomputersimulationen erzeugen Rechenknoten hohe Wärmedichten. Die Flüssigkeitskühlung ermöglicht eine dichtere Anordnung der Rechenknoten und verhindert gleichzeitig Leistungseinbußen oder Ausfallzeiten aufgrund hoher Temperaturen.
Cloud-Computing mit hoher Dichte: Cloud-Rechenzentren in städtischen Kerngebieten sind mit Einschränkungen aufgrund begrenzten Platzangebots und strenger Energieverbrauchsobergrenzen konfrontiert. Flüssigkeitskühlung kann bei gleicher Stellfläche eine 2- bis 3-fach höhere Rechenleistung liefern und erfüllt damit die Anforderungen des Cloud-Computings an eine hohe Rechenkapazität.
Das Schlagwort »Nachhaltigkeit« spielt in Rechenzentren eine besonders wichtige Rolle. Wie geht KAYTUS damit um, insbesondere angesichts zunehmender Vorschriften?
Um eine nachhaltige Entwicklung ihrer Systeme zu erreichen, müssen Rechenzentrumsbetreiber gesetzliche Anforderungen erfüllen und ihrer Verantwortung für einen umweltbewussten Betrieb nachkommen. KAYTUS stellt sich diesen Herausforderungen.
Aus Produkt- und Technologiesicht stattet KAYTUS seine Serversysteme und zugehörige Geräte vollständig mit Flüssigkeitskühlungstechnologien aus, um den Energieeffizienzanforderungen in verschiedenen Szenarien gerecht zu werden. Das Unternehmen bietet eine komplette End-to-End-Flüssigkeitskühlungsinfrastruktur, die die PUE auf Hardwareebene deutlich reduziert.
Aus Prozess- und Managementperspektive setzt KAYTUS auf grüne Prinzipien – über den gesamten Produktlebenszyklus hinweg, von der Forschung und Entwicklung über das Design bis hin zur Fertigung und Auslieferung. Der Energieverbrauch und die Umweltbelastung werden bei der Auswahl der Komponenten sowie bei den Fertigungsprozessen streng kontrolliert und durch hohe Produktions- sowie Technik-Standards unterstützt, um eine regelkonforme und nachhaltige Lieferung zu gewährleisten.
Immersionskühlung im Vergleich zur Direktkühlung des Chips. Wie stehen Sie zu diesem Thema im Bereich flüssigkeitsgekühlter Servertechnologien?
Die Flüssigkeitskühlung mit Kühlplatten ist die gängigste Lösung auf dem heutigen Markt für Flüssigkeitskühlung. Derzeit unterstützt das gesamte KAYTUS-Serverportfolio DLC (Direct Liquid Cooling). Im Vergleich zu anderen Flüssigkeitskühlungsverfahren wie der Immersionskühlung liegen die wesentlichen Vorteile in der hohen Kompatibilität, den geringeren Kosten und der höheren Sicherheit.
Hohe Kompatibilität: Die Flüssigkeitskühlung mit Kühlplatten bietet eine hervorragende Anpassungsfähigkeit und erfordert keine größeren Änderungen an bestehenden Serverdesigns oder Rechenzentrumsarchitekturen. Im Gegensatz dazu erfordert die Immersionskühlung maßgeschneiderte, versiegelte Server; ältere Geräte sind weitgehend inkompatibel, und die Nachrüstung ist mit erheblichem technischem Aufwand verbunden.
Geringere Vorabinvestitionen: Kühlplatten-Lösungen haben geringere Anschaffungskosten, da Kühlplatten und die dazugehörigen Rohrleitungen relativ kostengünstig sind und die vorhandene Infrastruktur wiederverwendet werden kann. Im Vergleich dazu erfordert die Immersionskühlung große Mengen teurer dielektrischer Flüssigkeiten und spezielle Immersionstanks, was zu wesentlich höheren Vorabinvestitionen führt.
Höhere Betriebssicherheit und einfachere Wartung: In Kühlplatten-Systemen zirkuliert das Kühlmittel in einem geschlossenen Rohrsystem und kommt nicht in direkten Kontakt mit elektronischen Komponenten. Leckagerisiken sind lokal begrenzt und leichter zu überwachen. Bei der Immersionskühlung hingegen muss die Integrität der gesamten Immersionsumgebung langfristig gewährleistet sein, während Austausch und Entsorgung kostspielig und komplex sein können.
Künstliche Intelligenz ist in letzter Zeit in Rechenzentren in aller Munde, und Rechenzentren werden bereits für KI-Workloads aufgerüstet und nachgerüstet. Steht das selbstverwaltende Rechenzentrum also kurz bevor? Wie kann dies realistisch umgesetzt werden?
Aufgrund der fortschreitenden Weiterentwicklung von KI-Anwendungen ist in der Tat zu erwarten, dass Rechenzentren irgendwann selbstverwaltend werden. Die automatisierte Verwaltung von Rechenzentren kann unter folgenden Gesichtspunkten betrachtet werden:
Einheitliche Verwaltung der Rechenzentrumsinfrastruktur: Die gesamte Rechenzentrumsinfrastruktur erfordert eine umfassende Verwaltung, einschließlich Rechenleistung, Speicher, Netzwerk, Stromversorgung und Kühlung. Nutzer benötigen einen einheitlichen Überblick über den Betriebsstatus aller Geräte sowie über die Rechenzentrumsumgebung. Eine einzige Plattform sollte die vollständige Transparenz und Verwaltbarkeit aller Geräte sowie eine einheitliche Wartung für Gruppen ermöglichen.
Automatisierte Fehlerprognose, -identifizierung und -behebung: Ausfälle von Komponenten wie Laufwerken und Speichern sollten im Voraus vorhergesagt werden können und automatische Warnmeldungen auslösen. KI-Algorithmen können für groß angelegte Leistungs- und Kapazitätsprognosen eingesetzt werden und ermöglichen so eine proaktive Entscheidungsfindung. Die Fehlerdiagnose sollte proaktive und reaktive Überwachungsmetriken sowie die Erfassung von Protokollen nutzen, um Probleme schnell zu erkennen und die Ursachen zu lokalisieren.
Dynamisches Energieverbrauchsmanagement: Das Energiemanagement sollte die gesamte Infrastruktur des Rechenzentrums abdecken. Durch die Festlegung von Richtlinien zur Leistungssteuerung können Rechenzentren eine dynamische Energieoptimierung auf Basis der Arbeitslast und eine visuelle Verfolgung der CO2-Emissionen erreichen. Ein intelligentes Arbeitslastmanagement trägt dazu bei, die maximale Effizienz aufrechtzuerhalten und gleichzeitig Leerlauf- oder Überlastungszustände zu vermeiden, wodurch der Gesamtenergieverbrauch gesenkt wird.
