NFS für HPC? DASE-Architektur für das High Performance Computing und künstliche Intelligenz

Illustration Absmeier foto freepik

Im Windschatten der großen Aufmerksamkeit für künstliche Intelligenz (KI) und dem zunehmend ernsthaften Interesse an Quantencomputing erlebt auch das Thema High Performance Computing (HPC) seinen zweiten Frühling. Einer der limitierenden Faktoren war hierbei die Zugriffsgeschwindigkeit auf Speichermedien.

Sven Breuner, Field CTO International bei VAST Data, erläutert, wie die DASE-Architektur hier zum Zuge kommt:

»Als ich im Jahr 2005 zum Fraunhofer Center for HPC gekommen war und wo ich dann BeeGFS entwickelt hatte, habe ich viele HPC-Forscher befragt, um herauszufinden, was sie von einem neuen parallelen Dateisystem erwarten würden. Im Rückblick kann man heute sagen, dass die wesentlichen Anforderungen der Anwender im Prinzip immer die gleichen sind – damals und auch noch heute: Es geht im Prinzip um einen schnelleren Zugriff auf große und kleine, sequentielle und zufällige Dateien. Damals ging es in erster Linie um die Dateien eines aktuellen Projekts, während wir es heute in der auf Daten konzentrierten Ära der AI und der modernen Analytik mit dem gesamten Archiv an Dateien und dem kontinuierlichen Training für ihre Speicherung zu tun haben.

Das grundsätzliche Problem besteht nach wie vor darin, dass die jeweils eingesetzte Software an die Möglichkeiten von Festplattenspeichern gebunden ist, die für kleine, zufällige Lesevorgänge und hohe Zugriffsgeschwindigkeiten von Natur aus insgesamt zu langsam sind.

Folglich mussten die Anwender schon immer viel Zeit und Mühe aufwenden, um ihre Anwendungen so umzuschreiben, dass sie weniger zufällige und weniger gleichzeitige Speicherzugriffe ausführen konnten. Dies war auch deshalb notwendig, um die Laufzeit von Anwendungen auf Basis von sich drehenden Festplatten zu verbessern, schränkte aber auch gleichzeitig die Möglichkeiten zur Weiterentwicklung von HPC-Anwendungen durch neue Algorithmen stark ein.

 

Um was es bei HPC im Prinzip geht

Interessanterweise scheint durch die bisherige Entwicklung im Laufe der Jahre der Eindruck entstanden zu sein, dass es bei HPC in erster Linie um Streaming I/O geht – aber das ist nicht der Fall. Einige der wirklich bedeutenden Fortschritte im HPC werden dadurch ermöglicht, dass die Dateisysteme nicht mehr durch rotierende Festplatten begrenzt sind. Außerdem sollten die Anwender verstehen, dass diese Technologie nicht nur ihre aktuellen Workloads beschleunigt, sondern es ihnen vor allem ermöglicht, sich nicht mehr um zufällige Zugriffsmuster kümmern zu mūssen.

Das Unternehmen DUG beschreibt die neuen Möglichkeiten nach dem Wechsel von Lustre zu VAST auf folgende Weise: ›VAST hat nicht nur die Art und Weise verändert, wie wir Daten speichern – diese Lösung verändert auch unsere Beziehung zu den Daten selbst.‹ Diese Aussage fasst den Kern der neuen datenzentrierten Ära bei HPC perfekt zusammen: Hier erweist sich ein schneller Compute-Cluster für moderne Anwendungen nur dann als nützlich, wenn er einen Zugriff auf die richtige Speicherplattform und die entsprechenden Data Services besitzt.

VAST stellt in diesem Zusammenhang eine NFS-basierte Multiprotokoll-Architektur für erschwingliche All-Flash-Systeme in großem Umfang zur Verfügung, die sowohl die Anforderungen an traditionelle HPC- als auch an neue AI- und Analyse-Anforderungen erfüllen können. Dies führt insgesamt zu einer besseren Handhabung, Performance und Skalierbarkeit der zusammengeführten HPC- und AI-Umgebungen, während gleichzeitig die Komplexität durch Datendienste in Unternehmensqualität, die auf die Bedürfnisse der Benutzer zugeschnitten sind, reduziert wird.

NFS für HPC? Sicherlich ja. Die meisten Administratoren von Speichersystemen für HPC werden bereits irgendwann einmal NFS-Server ausprobiert haben, weil sie angeblich so schön bequem und einfach und von überall aus zugänglich sind. So etwas hat allerdings in der Regel nicht gut funktioniert, was dann zu einem weiteren allgemeinen Missverständnis geführt hat, das lautet: »NFS ist langsam.«

Infolgedessen wandte sich die HPC-Community den weniger bequemen und weniger funktionsreichen parallelen Dateisystemen zu, um die Performance zu steigern.

Aber NFS stellt letztlich nur eine Protokollspezifikation dar. Diese Spezifikation ist ihrem Prinzip nach weder schnell noch langsam. Es ist die konkrete Implementierung des Protokolls hinter der Protokollspezifikation, die das Ergebnis schnell oder langsam macht und die für Scale-up oder Scale-out sorgt. VAST Data besteht aus einer vollständig skalierbaren Performance-Architektur für erschwingliche Flash-Systeme in großem Maßstab. Und bei VAST legt man nach wie vor großen Wert auf die Performance von NFS. Außerdem haben wir eine Scale-Out-Performance für Systeme mit einer Größe von über 100 Petabyte und einem Durchsatz von über 160 Gigabyte/s für einen einzelnen NFS-Client praktisch vorgeführt.

In einem VAST-System kann ein einzelner Client-Mountpoint entweder mit einem der mehreren Server im System kommunizieren – wobei verschiedene Clients automatisch verschiedenen Servern zugewiesen werden – oder auch parallel mit mehreren Servern durch die NFS-Multipathing-Technologie. In jedem Fall bietet jeder Server in einem VAST-System Zugriff auf den gesamten Namespace, da er mit allen Laufwerken im Backend verbunden ist und somit auch Striping und Erasure Coding über alle Laufwerke hinweg ausführen kann.

 

Quelle: VAST

 

Hinzu kommen all die anderen Funktionen, von denen man als Anwender schon immer geträumt hat. Dazu gehören zum Beispiel:

  • die Unterstützung für vollständig konsistente Snapshots;
  • natives RDMA (IB & RoCE);
  • die Möglichkeit, das System problemlos mit verschiedenen physischen Cluster-Netzwerken zu verbinden;
  • integrierte Replikation einzelner Unterverzeichnisbäume für Disaster Recovery;
  • Mandantenfähigkeit;
  • unterbrechungsfreie Upgrades, ohne dass manuelle Befehle auf der Konsole erforderlich sind;
  • Kontrolle der Service-Qualität;
  • eine Garantie auf die Flash-Laufwerke, die unabhängig von der geschriebenen Datenmenge ist;
  • Live-Statistiken für einzelne Benutzer;
  • und Unterstützung für zusätzliche Protokolle wie SMB und S3 für den Zugriff auf dieselben Daten mit einheitlichen Zugriffsberechtigungen für alle Protokolle.

 

Mit dem Einsatz von VAST Data erhalten HPC-Benutzer also den Zugang zu den folgenden Funktionen:

  • Eine neue Exabyte-fähige Scale-out-Architektur für NFS/SMB/S3/SQL;
  • All-Flash-Performance für schnellen, wahlfreien Zugriff auf alle Daten ohne Probleme mit Nachbar-Installationen;
  • eine stets online verfügbare HPC-Speicher-Cloud mit einfacher NAS-Verwaltung und unterbrechungsfreien Upgrades;
  • Konsolidierung von HPC- und AI/ML-Workloads;
  • geringerer Betriebsaufwand und geringere Kosten;
  • aber am allerwichtigsten: Forscher und Datenwissenschaftler genießen die Freiheit, moderne Algorithmen auszuführen und zu erfinden, ohne an die Mechanik von traditionellen, sich drehenden Festplatten gebunden zu sein.

 

Das alles zusammen kann auch als eine adäquate Beschreibung von VAST Data verstanden werden. Aber wir würden dann immer noch nur über die Spitze des Eisbergs, also den wirklichen Funktionsumfang sprechen. Einen detaillierten Überblick darüber, wie hochleistungsfähige NFS-basierte Infrastrukturen die bisherigen Annahmen der HPC-Community verändern, findet man in diesem IDC-Whitepaper.«

https://vastdata.com/resources/forms/analyst-papers/idc-high-performance-nfs-storage-for-hpc-ai

 

Die DASE-Architektur

Die DASE-Architektur (Disaggregated Shared-Everything) ist ein neues Konzept für die Gestaltung von Datenbanksystemen, das die traditionelle Trennung zwischen Servern und Speicher aufhebt. Anstatt dass jeder Server einen eigenen lokalen Speicher hat, werden alle Speicherressourcen in einem gemeinsamen Pool zusammengefasst, auf den alle Server über ein Hochgeschwindigkeitsnetzwerk zugreifen können. Dies ermöglicht eine höhere Flexibilität, Skalierbarkeit und Effizienz bei der Verarbeitung von großen Datenmengen.

Die Vorteile der DASE-Architektur sind vielfältig. Zum einen erlaubt sie eine bessere Auslastung der Speicherressourcen, da diese dynamisch nach Bedarf zugewiesen werden können. Zum anderen reduziert sie die Kosten und die Komplexität der Systemverwaltung, da weniger Hardware und Software benötigt werden. Außerdem verbessert sie die Leistung und die Verfügbarkeit der Datenbank, da die Server schneller auf die Daten zugreifen können und es weniger Single Points of Failure gibt.

Die DASE-Architektur ist besonders geeignet für Anwendungen, die eine hohe Parallelität, eine hohe Datenintensität oder eine hohe Variabilität erfordern, wie zum Beispiel Data Warehousing, Big Data Analytics oder Machine Learning. Mit der DASE-Architektur können solche Anwendungen von einer höheren Geschwindigkeit, einer höheren Zuverlässigkeit und einer höheren Skalierbarkeit profitieren.

Genki Absmeier