Big Data und Data Warehouse – Datenmanagement wieder im Fokus

Datenmanagement wieder im Fokus

Nearline Storage bietet neue Chancen für ein intelligentes Datenmanagement, das Datenqualität, Performance und nutzenoptimale Speicherung entlang des gesamten Lebenszyklus einer Information gewährleistet.

Die Rolle des Business Warehouse hat sich in den vergangenen Jahren gewandelt. Die aktuellen Trends Big Data und ln-Memory Computing führten zu einer Wiederbelebung des Back-ends. Viele Unternehmen haben in den vergangenen drei bis fünf Jahren primär die Weiterentwicklung ihres Data Warehouse zur integrierten BI-Landschaft vorangetrieben. Dabei hat sich der Fokus auf das mobile Frontend und die flexible Bereitstellung von Informationen für den Endanwender verlagert. Doch die Geister der Vergangenheit wurden dadurch nicht alle vertrieben. Ein intelligentes Datenmanagement, das Datenqualität, Performance und nutzenoptimale Speicherung entlang des gesamten Lebenszyklus einer Informa-tion gewährleistet, ist mehr denn je essenziell. Neue Technologien wie Near-line Storage eröffnen hierbei neue Möglichkeiten.

Der Begriff Big Data wird mittlerweile nahezu inflationär verwendet und ist auf das Business Warehouse vieler Unternehmen so nicht anwendbar. Ein Business Warehouse verdient streng genommen erst bei einer Systemgröße von über 50 Terabyte das Prädikat Big Data. Entscheidend ist jedoch nicht die absolute Größe, sondern das relative Datenwachstum. »Wenn ein System in einem Jahr mehr als 30 Prozent wächst, dann ist das groß und das Management dieses Systems sollte überdacht werden, damit Kosten und Performance nicht aus dem Ruder laufen«, erläutert Gregor Stöckler, Geschäftsführer des Software- und Beratungsunternehmen DataVard.

Ursachen für Datenwachstum. Die Gründe, warum Data Warehouses immer größer werden, sind vielfältig. Einerseits steigt das zugrunde liegende operative Datenvolumen aufgrund einer starken Zunahme der Geschäftstransaktionen und neuer nationaler und internationaler Standorte. Neben gestiegenen Anforderungen der Benutzer nach mehr Daten mit zunehmend detaillierterer Granularität steigt auch der Nutzungsumfang durch neue Anwendungsfälle und Applikationen. Und auch die Sicherstellung der Hochverfügbarkeit der Daten verschlingt viel Speicherkapazität. So benötigen 10 Terabyte strukturierte Daten zehn bis zwanzigmal so viel Speicherplatz, bedingt durch Spiegelung, Hochverfügbarkeit, Umsysteme und Backups. Andererseits spielen auch rechtliche Gründe und Regularien wie beispielsweise der Sarbanes-Oxley Act für börsennotierte Unternehmen oder die Data Retention Directive der Europäischen Union eine signifikante Rolle. Diese machen ein cleveres Datenmanagement nötig, das granulare Daten für eine lange Historie speichert, auf deren Basis schnell neue Applikationen zur Berücksichtigung neuer Geschäftsanforderungen bereitgestellt werden können. »Das beschleunigte Datenwachstum ist eine Herausforderung für die Verwaltung des Systems, die verfügbaren Zeitfenster für Ladeprozesse und die performanten Auswertungen. Datenwachstum ist darüber hinaus der Hauptgrund für Leistungsverlust und steigende Betriebskosten«, beschreibt Michael Hahne, Geschäftsführender Gesellschafter von Hahne Consulting die Problematik.

Ungenutzte Daten blockieren Ressourcen. Nicht alle Daten sind wertvolle Daten, die aktiv im System vorgehalten werden müssen. Eine Analyse (BW Fitness Test) in über 100 Kundensystemen zeigt, dass produktiv genutzte und berichtsfertige Daten in InfoCubes nur rund sieben bis elf Prozent der Systemgröße ausmachen. Der Rest sind Stammdaten (vier bis zehn Prozent), temporäre Daten (20 bis 31 Prozent), Daten in DSOs (30 bis 48 Prozent) und Daten in Cubes, die älter als zwei Jahre sind (drei bis sieben Prozent). Mit zunehmendem Datenvolumen nimmt der Anteil der aktiv genutzten Daten rapide ab. Gerade ältere historische (kalte) Daten werden oftmals nur noch für eventuelle Prüfungen vorgehalten. Sie werden jedoch weiterhin in gleicher Weise wie die aktiv genutzten (warmen und heißen) Daten verwaltet. Das heißt, ein Terabyte aktiv genutzter Daten verursacht die gleichen Kosten wie ein Terabyte unregelmäßig genutzter oder sogar ungenutzter temporärer Daten. Diese überflüssigen Daten verursachen jedoch nicht nur hohe Betriebskosten, sie stehen zudem einer optimalen Performance des Systems im Weg. Die Folge sind oftmals Verzögerungen in den täglichen Auswertungen, die wichtige Entscheidungen blockieren können. Im cleveren Datenmanagement liegt daher enormes Potenzial.

Information Lifecycle Management als Schlüssel zum Erfolg. Um dieses Potenzial zu realisieren, bedarf es einer Strategie, die sowohl effektiv als auch zielgerichtet ist. Sie muss aufräumen, die Daten richtig klassifizieren, den Wert der Daten richtig erkennen und in Einklang mit den verursachten direkten und indirekten Kosten bringen. Mithilfe eines durchdachten Information Lifecycle Management können eine Reihe wichtige und wohltuende Effekte erzielt werden. Durch Reduktion der Systemgröße und Verlangsamung des Datenwachstums lassen sich beispielsweise eine direkte und indirekte Kosten-ersparnis erzielen. Darüber hinaus wird die Leistungsfähigkeit des Systems gesteigert und die Systemadministration erleichtert. Die effektivere Verwaltung hat nicht zuletzt direkte und indirekte Kosteneinsparungen beim Betrieb von Business Warehouse, Accelerator oder SAP HANA zur Folge. Ein Argument, das im Zuge steigender Infrastrukturkosten an Bedeutung gewinnt. Erfolgskritisch ist neben einem intelligenten Information Lifecycle Management schließlich auch die sinnvolle Speicherung beziehungsweise Archivierung der Daten gemäß ihrer Nutzung und Aussagekraft.

Speicherstrategie auf Datentyp abstimmen. Für ein Data Warehouse gibt es im Hinblick auf das physische Speichermanagement mehrere Möglichkeiten. Neben der normalen Speicherung (online) können die Daten klassisch in einem festen Speichermedium archiviert werden (offline). Es gibt aber auch noch eine Zwischenform, die Nearline-Speicherung (NLS). Sie zeichnet sich durch zwei wesentliche Eigenschaften aus: Zum einen können die Daten mithilfe effizienter Komprimierungstechniken und dedizierter Systemlösungen besonders kostengünstig vorgehalten werden. Zum anderen, und das ist für Analyse und Reporting von Bedeutung, haben die Benutzer durch die Integra-tion der NLS-Schnittstelle in die OLAP-Engine weiterhin darauf Zugriff. Die Daten können daher in einem ihrem Alter und ihrer Stellung im Informationslebenszyklus entsprechenden optimalen Speichermedium abgelegt werden und damit die unterschiedlichen Anforderungen an deren Service Level Agreements (SLAs) adressieren.

Der Einsatz von NLS empfiehlt sich vor allem für Daten aus InfoCubes und DSOs. Gerade für die Verwaltung großer Datenmengen mit den dabei auftretenden besonderen Anforderungen an Performance und Skalierbarkeit gibt es Konzepte, die für die unterschiedli-chen Speicherstrategien große Verbesserungspotenziale versprechen. Um die Komplexität der Verfahren für Hochverfügbarkeit, Betrieb und die Erstellung von Systemkopien zu reduzieren, hat sich die Nutzung eines Nearline-Repositories innerhalb des Business-Warehouse-Systems bewährt. Dabei erfolgt die komprimierte Ablage der NLS-Daten in spezifischen komprimierten Speicherbereichen der BW-Datenbank. Im Zuge der Big-Data-Diskussion sind darüber hinaus Technologien wie SAP IQ und Hadoop zukunftsträchtig, da sie große Datenvolumina effizient managen und diese mit sehr guter Performance bereitstellen können.

Die klassische Datenarchivierung hingegen bietet eine kostengünstige Lösung für sehr alte Daten, Daten aus der Akquisitionsschicht und einige temporäre Daten. Durch das hohe Kosten-Nutzen-Verhältnis bietet es sich an, temporäre Daten nur kurz aufzubewahren und regelmäßig zu löschen. Für einige Objekte wie PSAs und Changelogs kann auch die klassische Archivierung eine Option sein.

Resümee. Schnell lesende und schreibende Zugriffe auf den Datenbestand, Flexibilität und kostenoptimales Datenmanagement sind für Unternehmen erfolgskritisch – und das nicht erst seit dem Aufkommen des Big-Data-Begriffs. Mit einem umfassenden Konzept für ein Business-Warehouse-Datenmanagement lässt sich die Informationsverwaltung deutlich verbessern und versteckte Potenziale können aufgedeckt und genutzt werden. Ausgangspunkt ist die Analyse des Lebenszyklus von ‚Informationen. Die aktuellen Herausforderungen rasant wachsender Datenmengen, langsamerer Zugriffszeiten und unnötig hohen administrativen Aufwands in Data-Warehouse-Umgebungen lassen sich damit besser als durch traditionelle Herangehensweisen lösen. Darauf aufbauend können Speicheroptimierungsmöglichkeiten wie Nearline-Storage (NLS) das Datenvolumen deutlich verringern und gleichzeitig den Zugriff auf archivierte Daten erleichtern.


Martin Zlaty ist seit 2010 Service Line Manager ILM Services bei DataVard, einem auf SAP Business Warehouse und Datenmanagement spezialisierten Software- und Beratungsunternehmen. Davor war er 4 Jahre lang als SLO BW Berater beschäftigt.

www.datavard.com

Bild: © phipatbig/shutterstock.com 

 

 

Weitere Artikel zu