Data Lake statt Data Warehouse – Im Zuhause für Big Data erfolgreich fischen

Data Lake statt Data Warehouse – Im Zuhause für Big Data erfolgreich fischen

Daten, so war auf der CeBIT immer mal wieder zu hören, seien doch ein recht dröges Thema. Big Data hingegen, das sei eine spannende Sache. Nicht zuletzt wegen seiner engen Verbindung mit dem Internet der Dinge. Also eine wichtige Zukunftstechnologie. Tatsächlich geht es aber auch bei Big Data um nichts anderes als das Zusammenführen von strukturierten und unstrukturierten Daten beispielsweise aus dem Internet of Things oder Social Media.

Die Nachfrage nach unterschiedlichsten Daten steigt in den Unternehmen. Für die IT-Abteilungen eine Herausforderung, der sie lange Zeit weder wirklich schnell noch kosteneffektiv nachkommen konnten. Denn klassische Data Warehouses stoßen schnell an Kapazitätsgrenzen – ihr Ausbau ist teuer. Blickt man aber genauer ins Warehouse stellt man schnell fest, dass die dort gelagerten Daten teilweise gar nicht mehr oder nur sehr selten genutzt werden. Oder das mit sogenannten ETL-Prozessen – also dem extrahieren, laden und transformieren von Daten – zu viel Rechenleistung gebunden wird.

Viele Unternehmen gehen deshalb dazu über, neue Big-Data-Technologien wie Hadoop einzusetzen, um dort statt in den traditionellen Datenbanken oder Data Warehouses umzushiften. Mit diesen Technologien können Unternehmen regelrechte Datenseen – Data Lakes – anlegen. So schaffen sie zwar eine Heimat für die riesigen Datenmengen. Allerdings ist der See oft trüb, schon allein aufgrund der Menge an ungefilterten Daten, die kontinuierlich hineinfließen. Unternehmen stehen deshalb bei Big-Data-Projekten vor zwei Aufgaben: wie legen sie den See an und wie fischen sie die wichtigen und richtigen Daten aus dem Data Lake wieder heraus? Und dabei stehen sie vor fünf Herausforderungen.

1. Wer kann Big Data? Der Mangel an Skills.

Die erste Herausforderung besteht bereits darin, qualifizierte Mitarbeiter für ihre Big-Data-Projekte zu finden. Spezialisten sind in der IT rar gesät. Was tun? Mitarbeiter lassen sich am besten dazu in die Lage versetzen, Hadoop-Projekte zu betreuen, indem Instrumente eingesetzt werden, mit denen Entwickler und Datenanalysten bereits vertraut sind, die aber zugleich bereits mit neuen Technologien wie Hadoop funktionieren. Aus dem Grund laufen beispielsweise alle Tools zur Datenintegration und Qualität von Informatica bereits auf Hadoop. Davon profitieren rund 100.000 geschulte Informatica Entwickler weltweit. Und aus dem gleichen Grund sehen wir, dass andere Anbieter SQL-Funktionen auf Hadoop anbieten. Damit sind die meisten Datenanalysten und Dateningenieure vertraut.

Der Einsatz von bewährten Tools zu Datenintegration und Datenqualität hat für Unternehmen einen weiteren Vorteil: denn aktuelle Studien haben gezeigt, dass rund 80 Prozent der Ressourcen in Big-Data-Projekten in die Datenintegration und Datenqualität fließt. Meist manuell kodiert in Java oder anderen Hadoop-Programmiersprachen. Je mehr das Projekt wächst, desto mehr Programmieraufwand.

2. Es dauert zu lange, bis Big Data produktiv sind.

Die zweite Herausforderung liegt darin, dass es oftmals zu lange dauert, bis Big-Data-Projekte produktiv sind. Auch das hat mit dem oben geschilderten Dilemma zu tun: Denn was zunächst im Trial als programmierte, handgestrickte Java-Lösung funktioniert, verzögert in der Praxis oftmals die Umsetzung. Code muss überarbeitet werden, um die notwendige Performance und Skalierbarkeit zu ermöglichen, damit die Lösung 24/7 stabil läuft, um robustes Fehlermanagement garantieren zu können und die Lösung in die restlichen Produktivsysteme zu integrieren. Das ist – laut Feedback unserer Kunden – ungefähr fünfmal unproduktiver als der Einsatz von bewährten Tools, bei denen Performance, Skalierbarkeit und Verlässlichkeit einfach über Konfigurationsparameter gewährleistet werden. Mit solchen Tools können Assets wiederverwertet werden und es ist leichter, Big-Data-Projekte auch dann am Laufen zu halten, wenn Dinge sich verändern. Die Big Data Edition von Informatica nutzt beispielsweise die virtuelle Engine Vibe. Vibe stellt sicher, dass der Erfolg von Big-Data-Projekten nicht an neuen Technologien scheitert. Kunden können damit aber auch Mappings nehmen, die sie vor Jahren erstellt haben und mit minimalem Aufwand auf Hadoop laufen lassen. Sie ermöglicht ein fast unbegrenzte Connectivity, so dass neue Datentypen sehr schnell und auch in großen Mengen aktiviert werden können.

3. Zu sehr in der Gegenwart geplant.

Auch die Veränderungen bei den Big-Data-Technologien stellen Unternehmen vor eine Herausforderung. Was heute genutzt wird, wird nicht notwendigerweise auch die Technologie von morgen sein. Als »junge« Technologie verändert sich Big Data extrem schnell und dynamisch. Für die meisten Unternehmen passiert das oft so schnell, dass sie mit der Entwicklung kaum Schritt halten können. Es bleibt also immer ein Restrisiko, wenn die gesamte Big-Data-Strategie auf eine existierende Technologie abzielt. Hadoop beispielsweise ist momentan extrem beliebt, aber andere Technologien und Hunderte von Open-Source-Projekten stehen schon in den Starlöchern. Wichtig ist es deshalb, dass das Datenmanagement und die Datenintegration idealerweise einem »Map One – Deploy Everywhere«-Ansatz folgt, auf den Daten-Tools heute schon setzen. Was damit gebaut wird, kann dann leicht auch für künftige Big-Data-Technologien genutzt werden, da sich der Anbieter dann um die richtigen Konnektoren etc. kümmert.

4. Wo ist der Mehrwert?

Die zentrale Frage bleibt aber, welchen Mehrwert Big-Data-Projekte liefern. Zwar sagen heute 86 Prozent aller Marketingverantwortlichen, dass sie mehr Umsatz generieren könnten, wenn sie ein kompletteres Bild ihrer Kunden hätten. Big Data könnten das ermöglichen, wenn sie beispielsweise mit Kundendaten aus dem Customer Relationship Management zusammengeführt würden. Das erreichen die meisten CRM-Anbieter aber nur mit Tools wie Master Data Management. In der Kombination mit Big Data lassen sich handlungsrelevante Informationen erzeugen – und zwar in Echtzeit. Und damit erhält man dann wirklich den von Marketingfachleuten geforderten vollständigen Blick auf den Kunden.

5. Zu viel Energie für die Datenqualität und Datenintegration.

Hat man die Experten für Big Data – also die sogenannten Chief Data Officers – im Unternehmen, dann stehen diese oft vor der Herausforderung, dass fast 80 Prozent derzeit in die Datenvorbereitung geht und nur 20 Prozent für die Analyse zur Verfügung stehen. Dabei ist das eigentlich der spannendere Teil. Und auch der, für den Unternehmen ihre Chief Data Officers eigentlich benötigen. Auch hier helfen Tools wie die Informatica Intelligent Data Plattform, die das »Wasser-Management« des Datensees ermöglichen, dem Ort, in dem die Daten zur Verfügung gestellt und von dem aus sie abgerufen werden. Mit unserer Lösung werden Rohdaten aus dem Lake herausgefischt und in nutzbare, verlässliche und sichere Informationen umgewandelt. Und die brauchen Unternehmen, wenn sie aus den Big Data einen wirklichen Geschäftsnutzen ziehen wollen. Man kann sich das wie eine Art Supply Chain vorstellen, mit der Daten gesammelt, angepasst, verwaltet und ausgeliefert werden. Das Ergebnis sind Assets mit verlässlichen Daten, die vom Analyse-Team einfach gefunden, genutzt und integriert werden können. Der große See wird für das Team damit zu einer übersichtlichen Lagune mit kristallklaren Daten.

Daten und Datenmanagement sind also Beileibe kein dröges Thema, sondern eine ziemlich heiße Angelegenheit. Und wer die Daten in den Big Data richtig sammelt und aufbereitet, spart Zeit, setzt Ressourcen sinnvoll ein und wird dann auch neue Geschäftsmodelle schnell umsetzen können.


autor_dirk_haeussermann

Dirk Häussermann,
Geschäftsführer
Informatica DACH

 

 

Titelbild: © xpixel/shutterstock.com