Data Warehouses haben eine lange Tradition. Doch mit Big Data Analytics und Data Lakes haben viele diesen Ansatz totgesagt. Das entspricht allerdings nicht der Realität: Geschätzt betreiben mehr als 60 Prozent der Unternehmen Data Warehouses, oft sogar mehrere. Assets, in die viel investiert wurde und die Vorteile bieten, die mit einem Data Lake nicht erreicht werden können – und umgekehrt. Beide Ansätze haben ihre Daseinsberechtigung, vorausgesetzt allerdings, sie entsprechen dem aktuellen Stand der Technologie. Die wirkliche Herausforderung besteht heute darin, beide Ansätze zu optimieren – also zu automatisieren.

Data Warehouse – strukturiert und unflexibel?

Data Warehouses spielen eine große Rolle in den Datenstrategien von Unternehmen, sowohl für traditionelle Anwendungsfälle als auch für neue Szenarien. Die Technologie schafft eine bewährte »Single Source of Truth« mit schnellen Abfrageergebnissen und vielen Analytics-Optionen. Doch der Ansatz hat auch seine Schattenseiten. Data Warehouses wie SQL Server, Oracle Exadata und Teradata brauchen einen komplizierten Extract-Tansform-and-Load-Prozess (ETL). Beim klassischen ETL-Prozess werden verschiedenste Daten aus mehreren Quellen in einer Zieldatenbank zusammengeführt und dafür in das erforderliche Schema und Format gebracht. Der Datentransfer beginnt normalerweise mit einem Full-Load: Daten aus den Quellen gehen durch Raw-and-Refinement-Phasen, in denen Tools korrupte und ungenaue Records entdecken, korrigieren oder löschen. Bei diesem Schritt werden zusätzliche Bereinigungen durchgeführt, wie zum Beispiel ungenaue und falsche Einträge zu entdecken und zu korrigieren oder zu löschen. Dieser Prozess der ETL-Codierung dauert je nach Datengröße und -formaten mehrere Stunden.

Herausfordernd ist auch die Datenanalyse: Eine Analyse-Anfrage darf sich nicht auf die Produktivsysteme auswirken und wird deshalb auf andere Plattformen ausgelagert. Bei diesem Batch-Loading werden Files oder Tabellen im Ziel geschaffen, ihre Metadatenstrukturen auf Basis der Quelle definiert und die Tabellen dann mit den von der Quelle kopierten Daten nach Vorgaben der Metadaten-Definition befüllt. Batch-Verarbeitung und periodisches Hochladen der neuesten Daten braucht Zeit und oft auch viel Rechenpower im Quellsystem. Traditionelle Batch-Replikation und manuelles Extrahieren von Scripts sind ineffizient und langsam, und stoppen den laufenden Betrieb für die Batch-Verarbeitung. Das ist immer weniger akzeptabel.

Data Warehouse Automation – der Turbo für die Prozesse

Abhilfe schaffen Data-Warehouse-Automation-Tools (DWA). Sie automatisieren rund drei Viertel der Prozesse, etwa mit Hilfe von algorithmischen Quell- und Ziel-Transformationen. DWA sorgt in jedem Abschnitt der Pipeline für zuverlässige Ergebnisse, angefangen bei der Datenmodellierung und Echtzeiterfassung bis zu Datenbereinigung und Transformation, Data Marts und Governance.

Vermutlich am häufigsten automatisiert werden ETL-Prozesse, die damit schneller und qualitativ konsistenter werden. Mit DWA können Unternehmen ETL automatisch in Code-Vorlagen umwandeln, die überall repliziert werden können. Diese Code-Vorlagen enthalten Metadaten, die den Kontext darüber angeben, was sie bei der Ausführung tun sollen. Die Vorlagen sind nicht nur wiederverwendbar, sondern können auch an bestimmte Prozesse angepasst werden, um die Automatisierung über immer mehr Prozesse hinweg voranzutreiben und redundante Aufgaben zu reduzieren. Infolgedessen können Data Warehouses schnell umgestaltet werden, was Kosten und Ressourcen spart.

DWA beschleunigt die Integration von Daten mit Hilfe von vorkonfigurierten Konnektoren erheblich. Integrationszyklen kosten nur noch einen Bruchteil der Zeit: So kann eine Aufgabe, die früher rund sechs Stunden manuelle Arbeit erfordert hat, in nur 30 Minuten erledigt werden. Ein weiterer Vorteil: Die Server laufen stabiler, denn die richtige Balance zwischen Anwendungs- und ETL-Arbeitslasten gewährleistet, dass die Server nicht mit Datenspeicherprozessen überlastet werden, sondern die optimale Leistung für Operatives erhalten bleibt. Der schnellere Zugriff auf Daten im Data Warehouse erhöht die geschäftliche Agilität erheblich.

Automatisierungstools bieten zudem eine automatische Analyse der Ergebnisse, sobald ein ETL-Prozess abgeschlossen ist. Für Compliance ist gesorgt, da jede Aufgabe sichtbar gemacht und jede Prozessausführung verfolgt wird. Da ganze Prozesse überwacht werden, können IT-Teams Bereiche zur Verbesserung identifizieren, Fehler leicht beheben und automatisierte Tests durchführen – eine Transparenz, die Verantwortlichkeit sicherstellt. Das durchgängige Datenmanagement bildet die Grundlage für intelligente Anwendungen wie Machine-Learning-Projekte. BI-Abfragen werden so günstiger und lassen sich innerhalb von Stunden anstatt Wochen oder Monaten durchführen. Sogar neue Data Wahrehouses können über DWA-Tools mit Hilfe der visuellen Benutzeroberfläche per Drag&Drop schnell und relativ einfach designt und implementiert werden.

Data Lakes – Flexibel, aber leicht versumpft?

Data Lakes wurden dafür entwickelt, riesige Mengen an strukturierten, halbstrukturierten und unstrukturierten Daten in ihren nativen Formaten zu speichern. Ihr Vorteil liegt zum einen in der relativ kostengünstigen Speicherung, zum anderen in ihrer Echtzeitfähigkeit bei Kombination mit ebenfalls automatisiertem Data-Streams, wodurch sie Analytics-Anwendungen wie Betrugserkennung, Echtzeitangebote für Kunden, Trendanalysen, Social Media Monitoring etc. unterstützen können. Der Schritt in die Cloud macht sie skalierbar. Mehr Maschinen können den Ressourcen-Pool innerhalb des Rechenzentrums oder mit einer VPN-Verbindung in die Cloud-Infrastruktur erweitern.

Bei allen Vorteilen bringen Data Lakes aber auch ihre eigenen Herausforderungen mit sich. Der Data Lake kann zu einem Data Swamp werden, wenn Anwender nicht einfach auf die Daten zugreifen und sie analysieren können. Bei einer großen Menge von Datenquellen leiden die Implementierungszeit, die Entwicklungsressourcen und die gesamte IT-Umgebung. Unternehmen müssen sich Gedanken über den für sie besten Ansatz für den Aufbau und die Verwaltung dieser Speicher machen, damit sie die benötigte Agilität bieten können.

Bei der Schaffung eines Data Lakes wird Datenintegration zum erfolgskritischen Faktor. Die Analyse von Informationen aus sehr vielen verschiedenen Datenquellen macht das Management komplex und beeinträchtigt die Produktivität. Nun fehlt es Unternehmen aber oft an Integrations-Tools und dem entsprechenden Know-how. Die traditionellen Softwaretools für Datenintegration sind nicht darauf ausgelegt, die Anforderungen von Data-Lake-, Streaming- und Cloud-Plattformen an die Aufnahme großer Datenmengen zu erfüllen, vor allem wenn es um Echtzeitanwendungen geht. Machine Learning und andere KI-Algorithmen belasten die Datenintegrationstools zusätzlich: Sowohl bereits operationalisierte KI- und Data-Science-Anwendungen als auch dedizierte Entwicklungsumgebungen (Sandboxes) benötigen – möglichst viele – Daten zum Trainieren ihrer selbstlernenden Algorithmen, die alle in den Data Lake integriert werden müssen.

Damit alle Data-Lake-Nutzer ausreichend Performance haben, braucht es eine ausgeklügelte Analytics-IT-Architektur. Zu den wichtigen Prozessen in Bezug auf Data-Lake-Architektur zählen Datenerfassung, Data Streaming, Change Data Capture, Transformation, Datenvorbereitung und Katalogisierung. Meist umfassen Architekturen mehr als einen Data Lake – on-premises – in der Cloud oder in einer hybriden Umgebung. Dynamische Architekturen (wie etwa Lambda) ergänzen einen BatchProcessing Layer (meist MapReduce) mit einem »Speed Layer« (Apache Storm, Spark Streaming etc.), minimieren so Latenzen und bieten Echtzeiteinblicke. Kappa-Architekturen erfordern hingegen über die Hadoop-Infrastruktur hinaus Integration über mehrere Streaming-Tools und -Applikationen hinweg.

Damit Echtzeit-Analytics von Data Lakes unterstützt werden, müssen unterschiedliche Datentypen erkannt werden. Einige Daten brauchen vielleicht nur Batch- oder Micro-Batch-Verarbeitung, andere erfordern Stream Processing Tools oder Frameworks – etwa um Daten in Bewegung zu analysieren. Um die gesamte Palette zu unterstützen, muss das System so konzipiert sein, dass es je nach Bedarf Technologien wie Apache Kafka, Hortonworks DataFlow (HDF), Amazon Kinesis, Azure Event Hubs, MapR Streams usw. unterstützt. Die Anwendung von Technologien wie Hive auf Hadoop hilft, eine SQL-ähnliche Abfragesprache bereitzustellen, die von praktisch allen Analyse-Tools unterstützt wird. Im Idealfall könnte man sowohl einen operativen Datenspeicher (ODS) für traditionelle BI und Berichterstattung als auch einen umfassenden historischen Datenspeicher (HDS) für fortgeschrittene Analysen bereitstellen.

Data Lake Automation – der Integrationszauberer

Die Automatisierung der Data Lakes löst das Problem der vielen Datenformate und beschleunigt die – normalerweise sehr aufwändige – Bereitstellung der Daten. Durch die Automatisierung der Dateneingabe, die Erstellung von Schemata und kontinuierliche Aktualisierungen wird der ROI für Data Lakes erheblich schneller, der Zeit- und Personalaufwand sinkt. Dafür ist die Unterstützung von Streaming Change-Data-Capture wichtig: Dies ermöglicht eine inkrementelle Replikation – nur Datenupdates und Veränderungen in Datenstrukturen werden kopiert. Bewährt haben sich auch ein effizienter Eingabeprozess, die Vermeidung von Software-Agenten auf den Quellsystemen und ein zentralisiertes Aufgaben- und Quellenverwaltungssystem.

Ein Tool für die Automatisierung der Data-Lake-Pipeline muss alle wichtigen Quell- und Ziel-Plattformen sowohl on-premises als auch in der Cloud unterstützen. Das heißt, wenn sich die Architektur des Data Lake verändert, um neue Quellen aufzunehmen und auch die Häufigkeit der Updates sich ändert, sollten Data Architects dies mit einem Tool und einem Prozess für alle Endpunkte umsetzen können. Automatisierungstools beschleunigen auch die Datenreplikation, den Daten-Ingest und das Daten-Streaming über eine Vielzahl heterogener Datenbanken, Data Warehouses, Data Marts und Big-Data-Plattformen. Gut, wenn in einer einzigen Umgebung der Prozess der Erstellung und des kontinuierlichen Ladens von SQL-basierten betrieblichen und historischen Datenspeichern für die Nutzung durch Apache Hive automatisiert ist. Speziallösungen helfen, Daten aus Mainframe-, SAP-, Cloud- und anderen komplexen Umgebungen zu integrieren.

Die Automatisierungs-Tools bieten viele Datenperspektiven: Unterschiedliche Versionen eines Datensets (etwa alle Versionen eines Fertigungsauftrags), einen zeitlichen Snapshot (den Stand des Auftrags zu einem bestimmten Zeitpunkt) oder aber lediglich die aktuelle Variante.

Fazit: Um Automatisierung führt kein Weg herum

Data Lakes oder Data Warehouses – die Diskussion, welche Lösung für welchen Bedarf besser ist, wird sicher noch einige Zeit anhalten. Beide Varianten haben ihre Daseinsberechtigung und die Definitionen sind nicht vollständig gegeneinander abgegrenzt. Der Schritt in die Cloud kann die Relevanz dieser Entscheidung etwas abmildern, denn in der Cloud wird es einfacher, beide Ansätze miteinander zu verbinden und von ihren Vorteilen zu profitieren.

Doch egal welchen Ansatz man für sein Unternehmen wählt: Ohne eine Automatisierung wird man auf lange Sicht nicht konkurrenzfähig bleiben. Wenn Unternehmen über Unmengen von Datenquellen verfügen, wirkt sich das auf die Implementierungszeit, die Entwicklungsressourcen, die Aufnahmemuster (wie vollständige Datensätze gegenüber inkrementellen Updates), die IT-Umgebung, die Wartbarkeit, den Betrieb, die Verwaltung, die Steuerung und Kontrolle aus. Nur mit Automatisierung kann man mühsame Datenaufbereitung und komplexe ETL-Prozesse beschleunigen und flexibilisieren, hohe Leistung und analytische Fähigkeiten maximal nutzen.

42 Artikel zu „Data Lake Warehouse“

BUSINESS INTELLIGENCE | TOP-THEMA | AUSGABE 3-4-2015

Data Lake statt Data Warehouse – Im Zuhause für Big Data erfolgreich fischen

10. April 2015

Daten, so war auf der CeBIT immer mal wieder zu hören, seien doch ein recht dröges Thema. Big Data hingegen, das sei eine spannende Sache. Nicht zuletzt wegen seiner engen Verbindung mit dem Internet der Dinge. Also eine wichtige Zukunftstechnologie. Tatsächlich geht es aber auch bei Big Data um nichts anderes als das Zusammenführen von strukturierten und unstrukturierten Daten beispielsweise aus dem Internet of Things oder Social Media.