Die Lakehouse-Architektur soll die Leistung von Data Warehouses mit der Wirtschaftlichkeit von Data Lakes kombinieren.

Jedes Unternehmen wird in Zukunft ein Datenunternehmen sein, so alt der Satz ist, so bekannt ist er auch. Doch Daten allein machen noch nicht glücklich, es braucht auch Möglichkeiten die richtigen Schlüsse aus den Datenmengen zu ziehen und hier kommt Machine Learning- und KI-Technologie ins Spiel. Vielfach wurden sogenannte Data Lakes angelegt, die jedoch zu regelrechten Data Swamps verkommen sind. Darüber hinaus wurden Data Warehouses gefüllt. Doch bei all diesen Vorarbeiten bleiben die Probleme die gleichen, wie können die Daten schnell und effizient analysiert werden, ohne stundenlang die Datenformate anpassen zu müssen oder sich mühevoll die dafür notwendigen Daten zusammenzusuchen. Ein Unternehmen, dass sich dieser Aufgabe auf Basis von Apache Spark annimmt, ist Databricks, 2013 in San Francisco gegründet mit inzwischen über 1.500 Mitarbeitern weltweit. Ziel des Unternehmens ist es Data Scientists, Data Engineers und neuerdings auch Data Analysts bei ihrer Arbeit zu entlasten. Dafür hat es die Unified-Data-Analytics-Plattform geschaffen, die nun nach und nach erweitert wird. Letzte Neuerung ist das Lakehouse, damit soll die Zuverlässigkeit von Data Warehouses mit der Größe von Data Lakes kombiniert werden, um jede Art von Anwendungsfall zu unterstützen. Unternehmen können dann kuratierte Data Lakes erstellen, die strukturierte und halbstrukturierte Daten enthalten, und alle ihre Analysen auf qualitativ hochwertigen, aktuellen Daten in der Cloud ausführen. Nun baut das Unternehmen sein Lakehouse fertig. Dazu ein Gespräch mit Joel Minnick (JM), Vice President Marketing bei Databricks im Vorfeld des Data & AI Summit 2020.

Joel Minnick (JM), Vice President Marketing bei Databricks



Herr Minnick, was sind die wichtigsten Neuerungen, die Sie im Zuge der Konferenz vorstellen werden?

Wir führen SQL Analytics ein, damit Datenanalysten Workloads direkt in einem Data Lake durchführen können, anstatt in einem Data Warehouse. Damit wird der traditionelle Umfang eines Data Lakes von Data Science und ML auf alle Daten-Workloads einschließlich BI und SQL ausgeweitet. Jetzt können Unternehmen Data Teams aus den Bereichen Data Engineering, Data Science und Data Analytics an einer einzigen Datenquelle zusammenarbeiten. SQL Analytics verwirklicht unsere Vision einer Lakehouse-Architektur, die die Leistung von Data Warehouses mit der Wirtschaftlichkeit von Data Lakes kombiniert. Das führt zu einem bis zu 9x besseren Preis-Leistungs-Verhältnis als herkömmliche Cloud Data Warehouses.



Was ist die Lakehouse-Architektur?

Eine Lakehouse-Architektur vereinfacht die Datenauswertung und die Nutzung der KI. In der Vergangenheit mussten Data Teams proprietäre Data Warehouses für Business-Intelligence-Workloads und Data Lakes für Data-Science- und ML-Workloads pflegen, da keine einzige Datenplattform die Leistungsanforderungen der BI-Anwendungen und die Flexibilitätsanforderungen der Data-Science-Anwendungen erfüllen konnte. Diese Koexistenz von Legacy-Architekturen, die teuer und kompliziert in der Wartung ist, hat Datensilos geschaffen, die die Innovation verlangsamen und die Produktivität der Data Teams behindern. Ein Lakehouse löst dieses Problem, indem alle Workloads über eine einzige Architektur laufen.



Worauf baut SQL Analytics auf?

SQL Analytics baut auf Delta Lake auf, einer auf einem offenen Format basierenden Daten-Engine, die Zuverlässigkeit, Qualität und Sicherheit zu dem vorhandenen Data Lake des Kunden hinzufügt. Unternehmen können so vermeiden mehrere Datenkopien zu speichern und Daten in proprietären Formaten vorhalten zu müssen. Um BI-Performance auf einem Data Lake zu liefern, nutzt SQL Analytics zwei einzigartige Innovationen. Erstens bietet es benutzerfreundliche Endpunkte mit automatischer Skalierung, die die Abfragelatenz auch bei hoher Benutzerlast konstant niedrig halten. Zweitens verwendet es Delta Engine, unserer einzigartigen Query-Execution-Maschine, um Abfragen sowohl für große als auch für kleine Datensätze extrem schnell auszuführen. Mit nativen Konnektoren für alle wichtigen BI-Tools, einschließlich Tableau und Microsoft Power BI, können Kunden SQL Analytics problemlos in ihre bestehenden BI-Workflows integrieren, um Analysen mit wesentlich frischeren und vollständigeren Daten als je zuvor durchzuführen. SQL Analytics bietet außerdem eine SQL-native Abfrage- und Visualisierungsoberfläche, die es Analysten, Data Scientists und Entwicklern ohne Zugriff auf herkömmliche BI-Tools ermöglicht, Dashboards und Berichte zu erstellen, die problemlos innerhalb des Unternehmens gemeinsam genutzt werden können.



Welche Partner konnten Sie dafür gewinnen?

Die Lakehouse-Architektur wird von unterschiedlichen Partnern unterstützt. Sie kommen aus dem Bereich BI wie Tableau, Qlik, Looker und Thoughtspot, aus Ingest wie Fivetran, Fishtown Analytics, Talend und Matillion oder Catalog wie Collibra und Alation. Darüber hinaus haben wir uns noch Consulting-Unterstützung von Slalom, Thorogood und Advancing Analytics geholt.

Danke für das Gespräch.

Databricks hat eine Revenue Run-Rate von 350 Millionen US-Dollar in Q3 2020 erreicht, gegenüber 200 Millionen US-Dollar in Q3 2019 und gehört damit zu den am schnellsten wachsenden Software-Cloud-Unternehmen. Das Unternehmen hat seine Mitarbeiterzahl in Großbritannien, den Niederlanden, Deutschland und Schweden verdoppelt und in Australien und Indien im letzten Jahr verfünffacht hat.

