Mit Data Vault zu mehr Agilität im Data Warehouse

Anzeige

Architekturen. Frameworks. Praxis.

Illustration: Absmeier

Data Vault ist eine Modellierungstechnik, mit der sich bestehende Data Warehouses (DWH) modernisieren und damit den aktuellen Anforderungen an Datenhaltung und Analytics anpassen lassen. DWH-Verantwortliche stehen unter immer größeren Druck, ihre Systeme anpassen zu müssen. Klassische DWH-Konzepte nach Inmon oder Kimball sind nicht dafür geeignet, weil sie schnell immer komplexer werden und sehr teuer sind. Die benötigten Implementierungs- und Testzyklen sind sehr umfangreich, zudem fällt eine lange Liste an Auswirkungen oder Abhängigkeiten an, was den Aufwand unverhältnismäßig hoch macht.

Es muss also ein neuer Ansatz her. Data Vault erlaubt es, die Architektur und die Methodik des DWHs bedarfsgerecht an geänderte Anforderungen anzupassen. Die Modellierungstechnik erlaubt es, zielgerichtete Entwicklungen voranzutreiben beziehungsweise die Time-to-Market zu verkürzen. Data Vault liefert damit eine Antwort auf viele Herausforderungen, mit denen DWH-Architekten und -Verantwortliche derzeit konfrontiert werden.

 

Data Vault: Was ist das?

Data Vault bietet eine hohe Flexibilität bei Erweiterungen, eine bitemporale, vollständige Historisierung der Daten und ermöglicht eine starke Parallelisierung von Datenladeprozessen. Wer sich mit dem Begriff des agilen Data Warehouse beschäftigt, landet schnell bei Data Vault. Das Besondere an der Technik ist, dass sie auf die Bedürfnisse von Unternehmen fokussiert ist, weil sie flexible, aufwandsarme Anpassungen eines Data Warehouse ermöglicht.

Data Vault 2.0 betrachtet den gesamten Entwicklungsprozess sowie die Architektur und besteht aus den Komponenten Methode (Implementierung), Architektur sowie Modell. Vorteil ist, dass dieser Ansatz alle Aspekte von Business Intelligence mit dem zugrunde liegendem Data Warehouse bei der Entwicklung berücksichtigt.

 

Die Architektur von Data Vault besteht im Wesentlichen aus drei Schichten (Layer):

  • Staging Layer: sammelt die Rohdaten aus den Quellsystemen, etwa CRM oder ERP
  • Data Warehouse Layer: Wird diese Schicht als Data-Vault-Modell modelliert, beinhaltet sie:

o        Raw Data Vault: speichert die Rohdaten.

o        Business Data Vault: beinhaltet harmonisierte und transformierte Daten auf Basis von Geschäftsregeln (optional).

o        Metrics Vault: speichert Laufzeitinformationen (optional).

o        Operational Vault: speichert die Daten, die direkt aus operativen Systemen in das Data Warehouse fließen (optional.)

  • Information Mart Layer: Diese Schicht modelliert Daten als Star-Schema und/oder anderen Modellierungsverfahren. Sie stellt Informationen für die Analyse und das Berichtswesen zur Verfügung.

 

Die Hauptkomponenten des Data Vault-Modells

Data Vault unterteilt bei der Modellierung alle zum Objekt gehörenden Informationen in drei verschiedene Kategorien – im Unterschied zu Klassikern der Modellierung der dritten Normalform (3NF). Diese Informationen werden anschließend strikt getrennt voneinander abgelegt. Die funktionalen Bereiche lassen sich in Data Vault in sogenannten Hubs, Links und Satelliten abbilden:

  • Hubs sind das Herzstück des Kerngeschäfts (core business concept) wie Kunde, Verkäufer, Verkauf oder Produkt. Die Hub-Tabelle wird um den Business Key (Vertrags- oder Kundennummer) herum gebildet, wenn zum ersten Mal eine neue Instanz dieses Business Keys im Data Warehouse eingeführt wird. Der Hub enthält keine beschreibenden Informationen und keine FKs. Er besteht nur aus dem Business Key, mit einer im Warehouse erzeugten Sequenz von ID- oder Hash-Schlüsseln, Ladedatum/Zeitstempel und der Datensatzquelle.
  • Links stellen Beziehungen zwischen den Business Keys her. Jeder Eintrag in einem Link modelliert n-m Beziehungen einer beliebigen Anzahl von Hubs. Das erlaubt es dem Data Vault, flexibel auf Änderungen in der Business Logik der Quellsysteme, wie zum Beispiel Änderungen in der Kordialität von Beziehungen, zu reagieren. Genau wie der Hub enthält der Link keine beschreibenden Informationen. Er besteht aus den Sequenz-IDs der Hubs, auf die er sich bezieht, einer im Warehouse generierten Sequenz-ID, Ladedatum/Zeitstempel und Datensatzquelle.
  • Satelliten enthalten die beschreibenden Informationen (Kontext) für einen Business Key, der in einem Hub gespeichert ist, oder einer Beziehung, die in einem Link gespeichert ist. Satelliten funktionieren »insert only«, das bedeutet, dass die komplette Datenhistorie im Satelliten abgespeichert ist. Es können mehrere Satelliten zur Beschreibung eines einzelnen Business Key (oder einer Beziehung) verwendet werden. Ein Satellit kann jedoch nur einen Schlüssel (Hub oder Link) beschreiben.

 

Die Vorteile von Data Vault

Anwender sollten wissen: Data Vault ist kein IT-Selbstzweck. Ziel ist es, die Organisation bei der schnellen Bereitstellung von integrierten Daten für Analysen und Berichte zu unterstützen. Data Vault hat daher technisch wie organisatorisch viele große Vorteile:

 

  • Vorteile für Unternehmen

Der größte Vorteil von Data Vault ist die starke Reduzierung der Entwicklungszeit, etwa bei der die Umsetzung von Business-Anforderungen. Zudem wird ein höherer Return on Investment erzielt und das DWH durch den Einsatz von Data Vault skalierbar. Unternehmen können außerdem alle Daten bis zu ihrem Quellsystem nachverfolgen. Von Data Vault profitieren besonders Organisationen, die große Datenvolumina in kurzer Zeit laden müssen, ihre BI-Applikationen agil entwickeln wollen oder ein vorgelagertes Core Data Warehouse innerhalb einer bestehenden Silo-Architektur aufbauen möchten.

 

  • Vorteile in technischer Hinsicht

Data Vault unterstützt klassische Batch-Verarbeitung ebenso wie Near-Realtime-Loads. Dabei können Unternehmen auch unstrukturierte/NoSQL-Datenbanken anbinden. Im Vergleich zu klassischen DWH-Architekturen werden die Geschäftsregeln im Business Data Vault und in der Information Mart Layer eingesetzt. Damit sind sie möglichst nah beim End-User implementiert. Entsprechend werden Geschäftsregeln »spät« abgebildet und das DWH exakt mit den Daten beladen, wie sie im Quellsystem vorliegen. Man spricht daher von »Source of Facts« und nicht von der »Source of Truth«. Darüber hinaus lässt sich das DWH dank eines iterativen, agilen Entwicklungszyklus inkrementell ausbauen, um das Datenmodell bedarfsgerecht für alle Themen zu erweitern. Durch »Time Traveling«, also stichtagsbezogene Auswertungen beziehungsweise Zeitreisen, lassen sich Daten aus dem Altbestand zu einem bestimmten Stichtag darstellen oder auswerten. Unternehmen können Berichtsstände direkt miteinander vergleichen. Durch das unveränderte, vollständige und historisierte Laden werden überdies Compliance- und Auditanforderungen erfüllt.

 

Einfache Umsetzung von Data Vault

Data Vault erfordert kein neues Aufsetzen der Architektur. Neue Funktionen können mit den Konzepten und Methoden von Data Vault direkt aufgebaut werden. Dabei ist ein paralleles Anwenden von Data Vault möglich und bereits existierende Bestandteile gehen nicht verloren.

Frameworks können dabei die Arbeit bedeutend erleichtern: sie ziehen einen Layer zwischen DWH und Entwickler und verringern damit die Komplexität bei der Umsetzung. Ein einfach anzuwendendes Framework ist das Pentaho Data Vault Framework. Es wurde speziell entwickelt, um Unternehmen bei der Entwicklung, Bereitstellung und dem Betrieb von Data Vaults zu unterstützen. Das Framework erlaubt einfaches Anbinden neuer Datenquellen, ohne selbst ETL-Strecken entwickeln zu müssen. Die ETL-Jobs zum Beladen von Hubs, Links und Satelliten sind dazu vollständig parametrisiert. Dabei werden auch knifflige Fälle berücksichtigt, etwa, wie man mit fehlenden Datensätzen, multiaktiven Satelliten oder der fachlichen Gültigkeit von Daten umgeht.

Ein grafisches Interface ermöglicht eine einfache Konfiguration. Satelliten lassen sich an beliebiger Stelle in das Data Vault einfügen, ohne dabei das Modell zu verändern. Das Konfigurations-Cockpit ermöglicht eine bequeme Steuerung und eine einfache Anbindung neuer Datenquellen. Daneben gibt es Werkzeuge, die historisierte Daten einfach zusammenfügen und in den Data Marts zur Analyse zur Verfügung stellen. Schließlich wollen Unternehmen auf die Daten bedarfsgerecht zugreifen können. Durch den PIT Merge Join Step können zum Beispiel Daten aus verschiedenen Satelliten chronologisch korrekt zusammengebracht werden, ohne dass dafür unflexible Point-In-Time-Tabellen benötigt werden.

 

Wer profitiert von Data Vault?

Vor allem Unternehmen, die große Datenvolumen in kurzer Zeit laden müssen sowie Unternehmen, die ihre Business-Intelligence-Applikationen agil entwickeln, profitieren von Data Vault. Auch Unternehmen, die ein vorgelagertes Core Data Warehouse innerhalb einer existierenden Silo-Architektur aufbauen, gewinnen dadurch große Vorteile.

Zusammenfassend lässt sich festhalten: Mit Data Vault erhalten Unternehmen ein leistungsfähiges Werkzeug an die Hand, um durchgängige, abgestimmte Datenmodelle für ihr Data Warehouse aufzubauen. Veränderungen sind sehr einfach vorzunehmen, sodass Data Vault sehr gut geeignet ist, um Data Warehouses für zukünftige Herausforderungen agil aufzustellen.

Stefan Müller, Director Big Data Analytics, it-novum GmbH (www.it-novum.com)

 

Eine Übersicht über das Konzept kann nach Registrierung kostenlos unter https://bit.ly/2BlzGNC heruntergeladen werden.

 

55 Artikel zu „Data Vault“

Hadoop und Data Vault – Ein evolutionärer Ansatz für Big Data

Big Data liefert neue Möglichkeiten mit schwach strukturierten beziehungsweise unstrukturierten Daten umzugehen. Der »Data Lake« soll alle Daten sammeln; die Analysten von Gartner haben das Konstrukt in einen »Data Swamp« umbenannt. Die Entwicklungsgeschwindigkeit für neue Werkzeuge rund um Hadoop ist sehr hoch, es entstehen immer wieder neue Möglichkeiten der Datenanalyse. Es wird Zeit mit einem evolutionären Vorgehen die Vorteile zu nutzen, ohne gleich die komplette BI-Struktur neu aufzusetzen.

Königsweg Automatisierung – Der Weg zu mehr Effizienz für Data Warehouse und Data Lake

Data Warehouses haben eine lange Tradition. Doch mit Big Data Analytics und Data Lakes haben viele diesen Ansatz totgesagt. Das entspricht allerdings nicht der Realität: Geschätzt betreiben mehr als 60 Prozent der Unternehmen Data Warehouses, oft sogar mehrere. Assets, in die viel investiert wurde und die Vorteile bieten, die mit einem Data Lake nicht erreicht…

Datenstrategien für Big Data – Automatisierung des Data Warehouse muss Teil der Lösung sein

Im Zeitalter von Big Data könnte man davon ausgehen, dass man gar nicht genug Daten haben kann. Denn aus Daten lassen sich in der Theorie wichtige Erkenntnisse ziehen, die Unternehmen zu ihrem Vorteil nutzen können. Und so sammeln Unternehmen seit Jahren fleißig Daten aus immer mehr Quellen ein – und stehen damit auch vor der…

Open-Data-Initiative: Mit Datenkooperationen gegen die »Daten-Kluft«

Durch die Nutzung und den Austausch öffentlich zugänglicher Daten können fundierte Entscheidungen getroffen und sogar einige der weltweit drängendsten sozialen Herausforderungen besser bewältigt werden. So heißt es in der neuen Datenstrategie der Bundesregierung, »Daten sind eine Schlüsselressource«, etwa für die Verbesserung der Gesundheitsversorgung. Die Fähigkeit Daten verantwortungsvoll und selbstbestimmt zu nutzen, zu verknüpfen und auszuwerten,…

Data Preparation: In 4 Schritten zum Data-Science-Projekt

Die richtige Data Preparation erhöht die Vorhersagequalität von Datenmodellen und steigert die Wirksamkeit von Machine Learning-Zyklen.   Die meisten Daten sind ohne eine vorher durchgeführte Data Preparation für KI-gestützte Prognosen ungeeignet: ihre Qualität ist unzureichend, sie liegen nicht in numerischer Form vor, oder es fehlen Werte. Diese Handlungsempfehlungen unterstützen bei der Datenvorbereitung und helfen, den…

Wie gelangt man zu einem effektiven Data Lake?

Die schnelle Entscheidungsfindung auf Basis digitaler Daten verändert die Art und Weise, wie Unternehmen und IT arbeiten. Da Unternehmen auf alle Arten von Informationen zugreifen wollen, haben sie einen Bedarf an Infrastrukturexperten erkannt, die ihnen helfen, aus ihren Daten neue Werte zu erschließen. Rubrik, Anbieter einer Plattform für Multi-Cloud Data-Control, erläutert jüngste Entwicklungen in diesem…

Analytics reicht nicht mehr aus: Top-Trends im Big-Data-Umfeld 2020

Wide Data, DataOps, Metadaten-Kataloge, Datenkompetenz und Shazamen sind die wichtigsten Trends im kommenden Jahr. Für 2020 hat der Data-Analyst-Spezialist Qlik folgende fünf Trends im Zusammenhang mit Big Data und Analytics identifiziert:   Aus Big Data wird Wide Data Dank skalierbarer Cloud-Lösungen sind in Big-Data-Umgebungen nicht länger die Kapazitätslimits unternehmensinterner IT-Infrastrukturen ein begrenzender Faktor. Die Herausforderung…

Die Trends für Business Intelligence & Big Data 2020

Welche Trends für Business Intelligence (BI), Data & Analytics werden das Jahr 2020 prägen? Im Interview gibt BARC-Chef-Analyst Dr. Carsten Bange seine Prognosen ab. Außerdem stellt er exklusiv die Ergebnisse des BARC BI Trend Monitor 2020 vor, der 2.650 Anwender von BI-Technologie zu ihren persönlichen Trendthemen befragt hat. Dr. Carsten Bange, Gründer und Geschäftsführer von…

Big Data: Wo die wilden Daten leben

Data Lakes, Data Marts, Data Vaults und Data Warehouses. Worin unterscheiden sich die verschiedenen Ansätze der Dateninfrastruktur? Big Data oder Data Analytics sind einige der größten Herausforderungen für die IT unserer Zeit. Viele Unternehmen befinden sich inmitten einer Umstellung auf eine datengesteuerte Ausrichtung ihrer Organisation und sind auf der Suche nach der dazu passenden Dateninfrastruktur.…

Big Data Vendor Benchmark 2017 liefert unabhängigen Vergleich von Big-Data-Lösungsanbietern

Die Analyse sehr großer polystrukturierter Datenmengen – Big Data – wird die Welt noch für sehr viele Jahre beschäftigen. Big Data gehört zu den Grundelementen der digitalen Transformation. Die Experton Group sieht hier vor allem die Notwendigkeit branchenspezifischer und zielgruppenspezifischer Angebote der ICT-Anbieter. Aus den »Big Data«-Dimensionen Business Intelligence und Business Analytics haben sich in…

Big Data ist bei deutschen Unternehmen bislang kein Thema

»Wir wollen weg vom Grundsatz der Datensparsamkeit, hin zu einem kreativen und sicheren Datenreichtum«, hat Alexander Dobrindt (CSU) unlängst verkündet. Weiterhin bezeichnete der Infrastrukturminister Daten als den Rohstoff der Digitalisierung. Ein Rohstoff, der offenbar bislang nur von wenigen abgebaut wird, wie eine aktuelle Veröffentlichung des Statistischen Bundesamts zeigt. Demnach setzen bislang nur sechs Prozent der…

Apache-Spark-Studie zeigt Wachstum bei Anwendern und neuen Workloads wie Data Science und Machine Learning

Zum besseren Verständnis der zunehmenden Bedeutung von Spark bei Big Data hat die Taneja Group ein großes Marktforschungsprojekt durchgeführt und rund 7.000 Teilnehmer befragt. In die weltweit angelegte Analyse wurden Führungskräfte aus Technik und Verwaltung einbezogen, die unmittelbar mit dem Thema Big Data zu tun haben. Die mit überwältigender Resonanz abgeschlossene Studie gibt Aufschluss die…

Big Data – Schluss mit lustig – Big Data wird ernst!

Seit 2011 beobachten wir bei Experton den Markt und die Lösungen für das Trendthema »Big Data«. Inzwischen haben viele Anbieter Produkte, Lösungen und Services für die neuen Datendimensionen in den Anwenderunternehmen auf den Markt gebracht. Bislang sind das jedoch vor allem Lösungen, die zunächst einmal rein technisch mit den Datenmengen umgehen können, schnelle Visualisierungsmöglichkeiten bieten,…

Verknüpfung von BI und Big Data hebt Datenanalysen auf neues Niveau

Business-Intelligence-Systeme sind in vielen Unternehmen produktiv im Einsatz. Zusätzliche Auswertungsmöglichkeiten bieten Big-Data-Anwendungen. Der kombinierte Einsatz in Unternehmen ist noch die Ausnahme, das ungenutzte Potenzial aber immens, meint der IT-Dienstleister Consol Software GmbH. Mit Business-Intelligence (BI)-Lösungen, die eine systematische Auswertung von Daten unterstützen, können Unternehmen wichtige Erkenntnisse für die Optimierung ihrer Geschäftsprozesse gewinnen. Die Datenanalysen helfen…

Big Data und gesellschaftliche Verantwortung

Mit den unheimlich vielen Analyse-Tools und den Social-Media-Datenschätzen sowie mit neuen Denkweisen wie Massenfinanzierung und gemeinsamer Nutzung von Privateigentum entstehen Chancen auf vermeintliche und echte disruptive datengetriebene Geschäftsmodelle. Bei den Szenarien sollte immer auch ein ethischer Gedanke im Vordergrund stehen. Einige Anbieter haben mächtige Werkzeuge entwickelt, darunter auch solche, die sogenannte disruptive Geschäftsmodelle fördern und…

Anstieg bei Investitionen in Big Data, obwohl immer weniger Unternehmen investieren wollen

Der Fokus hat sich von Big Data auf konkrete Geschäftsprobleme verschoben, die durch Big Data gelöst werden können. Investitionen im Bereich Big Data nehmen weiterhin zu, aber laut des IT-Research und Beratungsunternehmens Gartner sind erste Zeichen eines abgeschwächten Wachstums zu erkennen. Die Gartner-Umfrage zeigt, dass 48 Prozent der Unternehmen im Jahr 2016 in Big Data…

Neue Methoden für Business Intelligence – Agilität durch Automatisierung des Data Warehouse

Data Warehouse Automation bedeutet, dass die Entwicklung und Pflege der Datenaufbereitung aus wenigen Informationen heraus generiert wird und somit radikal beschleunigt. Diese Automation ist nicht ein Tool-Thema, sondern vor allem auch ein methodisches Thema. Neue Methoden im Bereich Business Intelligence, kurz BI, erlauben neben der Beschleunigung durch die Generierung auch eine höhere Agilität in der Bereitstellung von Daten und neue Wege in der Kommunikation mit dem Kunden.

Wie ERP-Systeme globalen Handel unterstützen: Grenzen – los?

Was bedeutet für Sie und Ihr Unternehmen der Begriff »Globalisierung«? Teils vorschnell definiert als Möglichkeit irgendwo auf der Welt billiger produzieren zu können, ist die Ausweitung der Geschäftstätigkeit auf den internationalen Markt für Sie sicherlich deutlich vielschichtiger und wird es immer mehr.   Begriffe wie Nachhaltigkeit, Neue Märkte, Produktion-on-Demand, globale Vernetzung, Handelskämpfe, Digitalisierung und Automatisierung,…