Der Weg vom Data Swamp zum Data Lake – oder umgekehrt

Wie Unternehmen verhindern können, dass sich ihr Data Lake in einen Data Swamp verwandelt.

 

In der modernen Datenwelt von heute ist der Begriff »Data Lake« weit verbreitet. Ein Data Lake ermöglicht es immer mehr Unternehmen, die Gesamtheit ihrer Daten auf effiziente und effektive Weise zu speichern, abzurufen und zu nutzen. Data Lakes sind ein leistungsfähiges Werkzeug für Datenanalysten und Entwickler, das es ihnen ermöglicht, enorme Mengen an multiformatierten, unstrukturierten Daten zu speichern und dabei die Notwendigkeit von Silos zu vermeiden.

 

Wenn jedoch das Datenteam nicht aufpasst, kann ein See sehr schnell zu einem Sumpf werden. Ein Sumpf ist schwer zu durchqueren, geschweige denn ist es möglich, etwas Sinnvolles damit anzufangen. Auf einem Sumpf ist noch nie etwas Dauerhaftes gebaut worden. Wie können Unternehmen also verhindern, dass sich ihr »Datensee« in einen »Datensumpf« verwandelt – oder den bereits vorhandenen Sumpf in einen See transformieren?

 

Stefan Käser, Solution Architect bei DoubleCloud, beschreibt das Verhältnis zwischen Data Lake und Data Swamp aus Sicht eine Praktikers. DoubleCloud aus Berlin ist ein junger Anbieter eines modernen Data-Stacks für End-to-End-Analytik:

 

Data Lakes gibt es schon seit ein paar Jahren. Obwohl sie mittlerweile zum Standard gehören, wurden sie zu Beginn ihrer Entwicklung von vielen als Marketing-Gag abgetan. Das Problem war, dass der Begriff Data Lake damals in keinem Standardlexikon für Datenspeicherung oder -architektur auftauchte, was bedeutete, dass der Begriff unterschiedliche Bedeutungen haben konnte. Inzwischen hat sich der Begriff soweit standardisiert, dass es eine Definition gibt. Data Lakes speichern enorme Mengen an unstrukturierten (und oft auch strukturierten), rohen oder definierten Daten in einem nativen Format ohne Schema für die Speicherung und ermöglichen gleichzeitig den On-Demand-Zugriff auf diese Daten.

 

Ein Data Swamp ist immer noch ein Data Lake, nur ein schlecht konzipierter, mit wenig bis gar keiner unterstützenden Dokumentation, der selten, wenn überhaupt, gewartet wird. Das unvorteilhafte Design, die fehlende Dokumentation und der fehlende Support erschweren das Abrufen von Daten erheblich, machen es mitunter sogar unmöglich, zumindest in einem angemessenen Zeitrahmen. Wenn die Daten nicht korrekt abgerufen werden können, können sie auch nicht analysiert werden. Wenn sie nicht analysiert werden können, zahlen Unternehmen Geld für die Speicherung nutzloser Daten.

 

Wofür sind Data Lakes gedacht?

 

Data Lakes haben eine Vielzahl von Funktionen. Sie können als Repository für eine zufällige Auswahl an Daten (Audiodateien, Videodateien, Dokumente, Protokolldateien usw.) dienen und sicherstellen, dass diese in einer für Audits konformen Weise gespeichert werden. Datenwissenschaftler und Ingenieure in einem Unternehmen können sie nutzen, um gleichzeitig auf strukturierte und unstrukturierte Daten zuzugreifen, um neue Analysemodelle zu testen. Sie können auch zur Integration von Daten aus operativen und transaktionalen Systemen verwendet werden. Während die meisten Nutzer von Business-Intelligence-Tools mit einem Data Warehouse zufrieden sind, werden Data Lakes eher von Wirtschaftsprüfern, spezialisierten Analysten und, wie bereits erwähnt, von Datenwissenschaftlern und Ingenieuren genutzt.

 

Was ist der Unterschied zwischen einem Data Warehouse und einem Data Lake?

 

Data Warehouses sind, um es einfach auszudrücken, organisiert – Data Lakes weniger. Data Warehouses sind eine ausgereifte und etablierte Technologie, die mit einer Vielzahl von Architekturen und Dokumentationen ausgestattet ist, auf die sich alle einigen können. Die darin untergebrachten Daten sind bereinigt und strukturiert, was eine einfache Analyse ermöglicht. Die Speicherung großer Datenmengen kann jedoch teuer sein.

 

Data Lakes hingegen sind eine sehr viel neuere Technologie, die noch unter einer sich entwickelnden standardisierten Architektur leidet – oder auch davon profitiert. Sie dienen der Speicherung von (unverarbeiteten) Rohdaten in jedem beliebigen Format, d. h. strukturiert oder unstrukturiert, in jedem beliebigen Format, also Text, Audio, Protokolle, Bilder etc. Data Lakes bieten eine viel größere Flexibilität als Data Warehouses, da keine Datenverarbeitung erforderlich ist, bis die Daten abgerufen werden, was bedeutet, dass die Speicherung der Daten viel kostengünstiger ist.

 

Vorteile von Data Lakes

 

  • Einfachere Datenerfassung: Data Lakes machen die Datenerfassung und -eingabe zu einem viel einfacheren Prozess. Strukturierte und unstrukturierte Daten können zu geringeren Kosten gespeichert und nur dann verarbeitet werden, wenn sie benötigt werden.
  • Bessere ETL-Unterstützung: Data Lakes eignen sich hervorragend für die Bereitstellung von ETL-Unterstützung, da sie Echtzeit-Datenströme mit hoher Geschwindigkeit unterstützen können, was eine mehrfache Nutzung der konvergierenden Daten ermöglicht.
  • Schnellere Datenaufbereitung: Mit einem Data Lake müssen sich Datenteams nicht bei verschiedenen Quellen anmelden, um auf Daten zuzugreifen und sie aufzubereiten, sondern sie sind alle vorhanden und können im Lake durchsucht werden. Durch diese Funktionalität wird die Datenaufbereitung erheblich beschleunigt, so dass sich die Teams viel schneller mit wichtigeren Aufgaben befassen können.
  • Erhöhte Skalierbarkeit: Data Lakes sind in der Lage, ein verteiltes Ablagesystem zu verwenden, was bedeutet, dass sie von Anfang an sehr skalierbar sind.
  • Mehr Zusammenarbeit, weniger Silos: Da sich alle Informationen an einem Ort befinden, werden Datensilos im gesamten Unternehmen beseitigt, was einen viel freieren Informationsfluss innerhalb des Unternehmens ermöglicht.

 

 

Woran ist zu erkennen, dass sich ein »See« in einen »Sumpf« verwandelt?

 

Eines der ersten und größten Anzeichen sind die Metadaten – oder deren Fehlen. Metadaten sind dazu da, die anderen Daten zu beschreiben. Innerhalb eines Data Lake sollten sie als Tagging-System zum Einsatz kommen, um eine bessere Suchfunktionalität zu ermöglichen. Sie können auch dazu dienen, um zu kennzeichnen, woher die Daten stammen oder wann sie eingegangen sind. Wenn dies alles der Fall ist, liegt wahrscheinlich ein Data Lake vor, anderenfalls sieht es eher nach einem Data Swamp aus. Data Lakes eignen sich hervorragend zum Ablegen von Daten, wenn Unternehmen noch nicht genau wissen, was sie damit tun sollen, wenn sie sie nicht umwandeln und in ein Data Warehouse einspeisen möchten oder wenn sie noch nicht genau wissen, wie sie in ihre allgemeine Geschäftsstrategie passen.

 

Das bedeutet nicht, dass ein Data Lake dazu da ist, jedes einzelne Jota an Daten zu erfassen, das ein Unternehmen auch nur im Entferntesten berührt. Einer der schnellsten Wege, einen Data Lake in einen Data Swamp zu verwandeln, besteht darin, ihn mit irrelevanten Daten zu füllen. Es ist wichtig zu wissen, welche Art von Daten Unternehmen erfassen wollen und vor allem, warum. Wenn sie das wissen, können sie einige Parameter festlegen, um nur Daten zu erfassen und zu speichern, die von Nutzen sind. Data Governance ist für den Umgang mit allen Arten von Daten, ob strukturiert oder unstrukturiert, von entscheidender Bedeutung. Wie werden sie behandelt, wo werden sie gespeichert, wer kann sie sehen, wer kann sie verschieben, wie lange werden sie gespeichert?

 

Die Liste ließe sich beliebig fortsetzen. Gibt es keine Data Governance für den Data Lake, liegt wahrscheinlich ein Data Swamp vor – oder die Gefahr besteht, dass aus dem See ein Sumpf wird. Das Fehlen einer (guten) Data Governance führt oft dazu, dass Data Lakes als Auffangbecken für alles Mögliche behandelt werden. Sie werden aufgebläht und unhandlich, und das, bevor sich Unternehmen überhaupt mit der Frage befassen, welche Daten von wem und wie lange gespeichert werden sollen. Ein Data Swamp kann in der Tat problematisch sein, wenn ein Unternehmen plötzlich einem Audit unterzogen werden. Auch die Automatisierung ist wichtig, um zu verhindern, dass sich ein neuer Data Lake in einen Data Swamp verwandelt. Wenn Unternehmen ihre Automatisierung richtig einrichten, lässt sich ein Großteil der oben genannten Aufgaben ohne manuelle Eingriffe erledigen.

 

Wenn der Data Lake jedoch nur unzureichend automatisiert ist, bedeutet dies, dass alles manuell erledigt werden muss, was für niemanden die oberste Priorität ist, das heißt, es könnte in einem Data Swamp enden, bevor Unternehmen es überhaupt merken. Abschließend ist es wichtig zu erkennen, dass niemand die Absicht hat, einen Datensumpf zu schaffen, aber es passiert einfach manchmal. Einer der wichtigsten Schritte, um dies zu vermeiden, ist eine solide Datenbereinigungsstrategie. Wenn der Data Lake voller veralteter, ungenauer, falscher oder doppelter Daten ist, wird ihm niemand vertrauen oder ihn nutzen. Nichts verwandelt einen See schneller in einen Sumpf als unsaubere Daten.

Fotos: Pixabay