High-Performance NAS – Big Data? Keine große Sache!

Big Data?  Keine große Sache!

Echte Scale-Out-NAS-Systeme bieten einen nahtlosen Übergang für steigende Kapazitäten und sichern so die Anfangsinvestition in Storage-Systeme, da man diese einfach und ohne Einbußen skalieren kann.

Datenmengen steigen unaufhaltsam – und damit die Nachfrage diese zu speichern und zu verarbeiten. Daher versuchen immer mehr Unternehmen alles aus ihren Daten herauszuholen. Dabei ist das Speichern nur eine der Herausforderungen — aus den Daten etwas herauszulesen eine andere. HPC-Spezialisten (High Performance Computing) treiben die Technologien, mit denen man die Datenflut beherrschen kann. Sie stützen sich auf die IT-Infrastruktur als Hauptbestandteil ihres Ansatzes. Aber ineffiziente und kostenintensive Ansätze in der Datenverarbeitung hemmen Innovation, verhindern neue Erkenntnisse und wirken sich schließlich auf die finanzielle Situation von Unternehmen aus.

Wie gehen die Spezialisten mit der Datenflut und den Anforderungen an höchste Performance um? Big Data, große Mengen an unstrukturierten Daten, werden zunehmend in HPC-Umgebungen verarbeitet. So hat etwa die Forschung am menschlichen Genom eine neue Ära geschaffen, die nur durch HPC überhaupt möglich ist. Auch andere Industrien – etwa im Bereich Öl und Gas – nutzen immer mehr Daten für noch bessere Ergebnisse. Höhere Speicherdichte, etwa von Helium-Festplatten, schaffen kurzfristig mehr Speicherkapazität, vor allem bei begrenztem Platzangebot. Die fortschreitende Nachfrage führt aber dazu, dass Rechenzentren weiter expandieren müssen. Echte Scale-Out-NAS-Systeme bieten einen nahtlosen Übergang für steigende Kapazitäten, während Projekte und Anforderungen wachsen. Diese Skalierbarkeit sichert die Anfangsinvestition in Storage-Systeme, da man diese einfach und ohne Einbußen skalieren kann.

Flash – schnell wie der Blitz. Flash ist sehr schnell, vor allem für kleine Dateien. Eine »All-Flash«-Lösung ist aber für fast alle Multi-Petabyte-Umgebungen unpraktisch und zu teuer. Andererseits wird ein »Disk-Only«-Ansatz bei Millionen kleiner Dateien und dazugehörigen Metadaten enorm zu kämpfen haben. Die optimale Lösung ist daher ein Hybridsystem, das die Performance von Flash für kleine Dateien und Metadaten hat, sowie gleichzeitig die geringen Kosten und hohen Kapazitäten von Festplatten bietet. Für maximale Effektivität muss eine hybride Architektur auf mehreren Ebenen aufbauen. Skalierbare Hybridansätze können ein viel breiteres Set an Anforderungen dadurch bewältigen, indem sie kleine und große Dateien innerhalb einer integrierten Architektur ansprechen. Das Managen von unterschiedlichen Auslastungen bei einer Vielfalt an Dateigrößen ist entscheidend für echte Hochleistung. Der Knackpunkt dabei ist, dass fast alle technischen Workloads einen beträchtlichen Anteil an kleinen Dateien haben. Eine hybride Plattform ist also sowohl aus ökonomischer Sicht als auch aus Leistungssicht sinnvoll. Die richtige Architektur bei Komponenten wie RAM, SSD und SATA-Festplatten ist nur das Fundament. Für maximale Performance, muss ein skalierbarer Ansatz so viele Performanceelemente wie möglich enthalten – und dabei gleichzeitig vermeiden, dass der Legacy NAS-Head auf diese serialisierten Daten zugreift und ihre lineare Skalierbarkeit beeinträchtigt.

Links: Der »traditionelle« Weg über einen Fileserver erweist sich im High-performance-Computing als Flaschenhals. Rechts: PanFS erlaubt den direkten, parallelen Zugang zu High-performance-Storage, und das in einem einzigen globalen Namespace.

Links: Der »traditionelle« Weg über einen Fileserver erweist sich im High-performance-Computing als Flaschenhals. Rechts: PanFS erlaubt den direkten, parallelen Zugang zu High-performance-Storage, und das in einem einzigen globalen Namespace.

Kompliziertes Storage – einfaches Management. Optimale Hardware und entsprechende Verarbeitungssysteme zur Leistungsoptimierung sind das eine: Was ist aber mit der Verwaltung? Bereitstellungsgeschwindigkeit, einfache Bedienung und Verwaltung sind echte Herausforderungen. Scale-Out-NAS ist für die horizontale Skalierung von Kapazitäten und Leistung durch das Hinzufügen von Storage Nodes konzipiert. Es kann aber erheblicher Implementierungs- und Verwaltungsaufwand entstehen, wenn die Skalierbarkeit nicht im Einklang mit dem globalen Namespace, adaptiver Automatisierung oder einfachem zentralisiertem Management steht. Niemand will ewig mit der Einrichtung des Systemmanagements verbringen, wenn es in einer HPC-Umgebung in weniger als zehn Minuten ausgerollt sein könnte. Das System sollte das automatisch erkennen und es in den globalen Namespace eingliedern. Bei einem einzelnen Namespace muss man nicht mehrere Storage-Inseln verwalten. Egal, wie viele Speicherelemente hinzugefügt werden: Das Management bleibt so einfach, wie bei der Verwaltung eines einzelnen Nodes. Das Management sollte auch einen Lastenausgleich zwischen den Dateien durchführen und Nodes berechnen, um die Performance zu erhalten. Durch das Single Point of Management mit intuitiver Benutzeroberfläche und vielen automatisierten Managementfunktionen, brauchen die besten Architekturen keine Inseln mehr und bieten trotzdem fortgeschrittene Managementfunktionen. Auch die Einbindung von Storage-Tools wie Snapshot oder sogar SNMP zur Integration mit typischen Management-Tools für Rechenzentren gehören dazu.

Hohe Ausfallsicherheit: RAID-Revolution. Die Daten müssen geschützt sein, denn die Wahrscheinlichkeit für Festplattenfehler verhält sich direkt proportional mit der Anzahl der installierten Festplatten. Nach jedem Ausfall sind alle Daten stärker gefährdet, zumindest während des Degraded-Rebuild-Modus. Traditionelle Hardware-RAID-Systeme wurden für den Erhalt der Daten entwickelt und nicht für Rebuild-Performance. Das ist nicht akzeptabel, wenn man schnelle Bearbeitungszeiten in einer modernen HPC-Umgebung braucht. Es gibt Lösungen, wie »Triple Parity Data Protection«, die vor Verlusten selbst bei zwei gleichzeitigen Plattenfehlern schützt. Wenn man das nun mit einer Pro-Datei-Verteilung koppelt, bei der der RAID-Datenschutz auf Dateiebene angewendet wird, dann bedeutet das, dass die Ausfallsicherheit sich bei der Skalierung verbessert. Das ist eine Revolution in der der traditionellen RAID-Denke. Nur die beschädigten Dateien werden wieder hergestellt und sind nicht zugänglich. Dies führt zu schnelleren Rebuild-Zeiten und besserer Verfügbarkeit von anderen Daten. Wenn man Festplatten mit hoher Kapazität anbindet, die meist noch länger für den Rebuild brauchen, ist das besonders wichtig. Es gibt noch weitere Aspekte zu bedenken, wie etwa Triple-Spiegelung von kleinen Dateien, idealerweise mit Rebuilds auf Flash-Basis und mit parallelen Speichersystemen, die schnelle Parallel Rebuilds durchführen können.

Resümee. Storage wird als das schwache Glied in der Performance-Kette angesehen. Daher muss eine Speicherlösung die Leistung haben, die nötig ist, um Workflows zu beschleunigen. Dies gilt insbesondere für die Forschungsbereiche in den technischen, ökologischen und biologischen Branchen. Die gleichen Herausforderungen werden in Zukunft für ein breiteres Spektrum von Rechenzentren gelten. Man braucht also ein System, das alle zentralen Anforderungen kompromisslos erfüllt: Schnelle Performance, leichte Bedienbarkeit und hohe Ausfall-sicherheit – und das alles in einer einzigen Scale-Out NAS-Lösung.


autor_geoffrey_noerGeoffrey Noer, 
Vice President, 
Product Management, 
Panasas, Inc.

 

Bild: © Brian A Jackson/shutterstock.com