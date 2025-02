An Daten herrscht in den meisten Unternehmen kein Mangel, doch in der Regel sind sie über unzählige Standorte und Systeme verteilt. Zum Training von KI oder für KI-Auswertungen lassen sie sich daher nur schlecht effizient einsetzen. Unternehmen benötigen neue Ansätze, Daten effizient zu verwalten und nutzbar zu machen.

KI lebt von Daten – von vielen und hochwertigen Daten, und genau damit fangen für die meisten Unternehmen die Probleme schon an. Sie verfügen zwar über viele Daten, doch die sind über verschiedene Clouds und Speichersysteme an unterschiedlichen Standorten verteilt. Die Informationen stecken in Datenbanken, Anwendungen und File-Shares, werden möglicherweise in Data Warehouses und Data Lakes zusammengeführt und fließen durch ein vielschichtiges Geflecht aus Daten-Pipelines. Für KI-Projekte sind solche unübersichtlichen Landschaften kaum geeignet: Zum einen verschwenden die Mitarbeiter viel Zeit mit der Suche nach Daten, statt sie zu nutzen und Erkenntnisse aus ihnen zu ziehen. Zum anderen verursachen die komplexen Zugriffe durch aufwendige Pipelines und ETL-Prozesse (Extract, Transform, Load) hohe Kosten. Nicht selten ist die strukturierte Nutzung verteilter Daten gar nicht möglich. Das heißt: Unternehmen verlieren in ihren KI-Projekten viel Zeit durch die ineffiziente Datensuche und -bereitstellung und können am Ende oft doch nur einen Teil ihrer Daten mehrwertbringend einsetzen.

Hinzu kommt: Selbst dort, wo sich Daten ohne Schwierigkeiten nutzen lassen, sind die Prozesse häufig nicht auf die Bedürfnisse von Data Scientists zugeschnitten. Diese müssen die Informationen eigentlich aufbereiten, sprich: auf Qualität prüfen, bereinigen und gegebenenfalls mit weiteren Informationen anreichern. Das erzeugt hohe Aufwände oder ist schlicht nicht möglich, weshalb die KI dann direkt auf die Rohdaten zugreift. Dieses Vorgehen birgt jedoch das Risiko von ungenauen, falschen oder vorurteilsbehafteten Ergebnissen, da Datenbestände von sich aus selten perfekt sind und üblicherweise auch unvollständige, veraltete und verzerrte Informationen enthalten.

Vor allem Data Lakes, in denen riesige Datenmengen zusammenfließen und lange aufbewahrt werden, sind dafür anfällig – oft gleichen sie eher einem Sumpf als einem See. Zudem ist es schwierig, die darin gesammelten unstrukturierten und halbstrukturierten Daten mit klassischen, strukturierten Unternehmensdaten zu korrelieren. Letztlich benötigen Unternehmen daher neue ganzheitliche Ansätze beim Datenmanagement, um ihre KI- und GenAI-Initiativen erfolgreich voranzutreiben. Damit wird dieses oft stiefmütterlich behandelte Thema plötzlich strategisch wichtig.

Dezentrale Datenquellen verbinden

Ein vielversprechender und moderner Ansatz, verteilte Datenbestände in den Griff zu bekommen, sind Federated Queries. Statt zu versuchen, alle Informationen in einem zentralen Data Lake oder in anderen monolithischen Architekturen zu vereinen und dort zu analysieren, werden die verschiedenen Datenquellen wie Datenbanken, Data Lakes und Data Warehouses über eine moderne Analytics Engine verbunden – unabhängig davon, ob sie sich in der Cloud oder im Rechenzentrum befinden. Die über den verteilten Datenquellen sitzende Managementplattform der Analytics Engine sorgt für eine einheitliche Sicht auf alle Informationen und kümmert sich auch um die Data Governance, inklusive rollenbasierter Zugriffsrechte und Datenmaskierung. Auf diese Weise gewinnen Unternehmen an Transparenz und behalten die volle Kontrolle über ihre bestehenden Daten, auch wenn die zugrunde liegende Datenlandschaft unübersichtlich ist.

Der Vorteil dieses Ansatzes: Alle Systeme sind auf einheitliche Art ansprechbar, sodass Daten über verschiedene Quellen hinweg mit einer einzigen Abfrage analysiert werden können. Komplexe Daten-Pipelines werden dadurch überflüssig, was sowohl den Verwaltungsaufwand als auch die Latenz sowie die Last auf den Speichern und im Netzwerk verringert. Die Bestandssysteme bleiben bestehen und müssen nicht abgelöst werden – vorhandene Anwendungen können ihre Daten wie gewohnt speichern beziehungsweise auf sie zugreifen.

Zusätzlich besteht die Möglichkeit, einen S3-kompatiblen Objektspeicher als innovativen Speicherort und modernen Data Lake für strukturierte und halbstrukturierte Daten, die für neue Anwendungen benötigt werden, einzusetzen und in das Gesamtkonzept zu integrieren. Ein solcher Speicher ist im Vergleich zu bisherigen Lösungen äußerst kosteneffizient und liefert eine hohe Performance, die ebenso wie die Kapazität bei Bedarf unkompliziert skaliert.

Aus Daten werden Produkte

Mit einem Ansatz wie Federated Queries können Unternehmen bedeutende Fortschritte bei der Transformation hin zu einem datengetriebenen Unternehmen erreichen. Eng mit diesem Ansatz verbunden ist ein Konzept namens Data Mesh, das verschiedene moderne technologische und organisatorische Ideen vereint, darunter Federated Analytics – verteilte Datenanalysen, deren Ergebnisse in einem KI-Modell zusammengeführt werden – sowie Data as a Product und dezentrale Verantwortlichkeiten für das Teilen von Daten.

Die letzten beiden Punkte bedeuten, dass Daten im Unternehmen als Produkt betrachtet werden, das nicht von einem IT- oder Infrastrukturteam nebenbei verantwortet wird, sondern von den Datenproduzenten in den Fachbereichen oder einem auf Datenprojekte spezialisierten Center of Excellence (CoE). Die dortigen Data Product Manager und ihre Teams pflegen jeweils ihre Daten, bereiten sie auf und stellen sie als einfach nutzbares Data Product bereit. Die Nutzer erhalten also keine Rohdaten oder Datenbankzugriffe mehr, sondern saubere, qualitativ hochwertige Datensätze. Es ist eine Art der Daten-Demokratisierung, da die Hürden zur Beantwortung datenbezogener Fragen deutlich sinken.

Welche Data Products angeboten werden, hängt von den konkreten Anwendungsfällen im Unternehmen ab. Data Product Manager achten darauf, dass ihre Produkte optimal zu den Anwendungsfällen passen und halten engen Kontakt zu den Nutzern, um die Data Products gegebenenfalls weiterzuentwickeln oder neue Data Products zusammenzustellen.

Die Umsetzung dieses Konzepts ist in der Regel mit organisatorischen Veränderungen verbunden – es gibt neue Aufgaben, Zuständigkeiten und Abläufe, ja idealerweise sogar eine neue datenzentrierte Firmenkultur. Da zudem die Auswahl geeigneter Lösungen alles andere als trivial ist und Unternehmen oft auch wenig Erfahrung mit neuartigen Anwendungsfällen rund um KI und GenAI haben, ist das Thema insgesamt sehr beratungs- und dienstleistungsintensiv.

Mehr als ein Data Lakehouse

Bei der Modernisierung von Datenmanagement-Konzepten und -Architekturen helfen Plattformen wie Dell Data Lakehouse, die weit über ein klassisches Data Lakehouse hinausgehen. Ein solches bringt üblicherweise Struktur in einen Data Lake, indem es offene Tabellenformate (OTF) einführt, die schnellere und effizientere Abfragen ermöglichen. Moderne Plattformen erweitern das um einen vollständigen Software-Stack für die Erkennung und Abfrage von Informationen bei unterschiedlichen Quellen auf Basis von Analytics-Engines wie Starburst Enterprise.

In vielen Fällen greift die Analytics-Engine dennoch nicht direkt auf die Quelldaten zu, um die Systeme nicht durch zusätzliche Abfragen zu überlasten und möglicherweise geschäftskritische Anwendungen auszubremsen. Stattdessen wird unter anderem mit Kopien und Snapshots von Datenbanken gearbeitet. Wie regelmäßig diese aktualisiert werden, hängt etwa davon ab, wie schnell sich der Datenbestand verändert oder wie häufig die Informationen tatsächlich abgefragt werden. Solche smarten Optimierungsfunktionen verhindern auch, dass immer der gesamte Datenbestand durchforstet wird. Die Engine weiß recht genau, wo sie suchen muss, welche Daten sie in einem Cache vorhalten sollte und ob es womöglich ausreicht, das Ergebnis einer früheren Abfrage zum Beispiel mittels sogenannter Materialized Views erneut auszuliefern, weil sich keine relevanten Daten verändert haben. Das alles sorgt dafür, dass Nutzer die benötigten Ergebnisse schnell erhalten und die Last auf den Systemen gering bleibt.

Schlussendlich helfen alle technischen und organisatorischen Veränderungen, die mit der Umsetzung eines Mesh-Konzepts einhergehen, dabei, Daten leichter nutzbar zu machen und schnellere Einblicke zu erhalten, und das, ohne bestehende Infrastrukturen großflächig austauschen zu müssen.

Christian Scharrer und Christian Spindeldreher

Christian Scharrer ist Enterprise Architect und CTO Ambassador bei Dell Technologies in Deutschland (Quelle: Dell Technologies)

Christian Spindeldreher, EMEA Data Management & Analytics Community Lead bei Dell Technologies (Quelle: Dell Technologies)

64 Artikel zu „Data Mesh“

News | Business Process Management | Trends 2022 | Rechenzentrum Data-Mesh-Architektur: Daten besser nutzen Die Dezentralisierung von Datenplattformen nimmt Fahrt auf – das Data Mesh gilt als vielversprechendes Architekturparadigma. Nachholbedarf existiert beim Self-Service: Datenanalysen bleiben bislang noch spezialisierten Teams vorbehalten. Viele Unternehmen unterschätzen die Auswirkungen einer dezentralen Datenarchitektur auf die Arbeitskultur. Das Data Mesh etabliert sich zunehmend in deutschen Unternehmen als vorherrschendes Muster für Datenplattformen. Bereits 60… Weiterlesen →