Databricks: Wir sind in allen relevanten Bereichen des Data-Managements der Stand der Dinge

foto freepik

Am 7. November 2023 hat die Firma Databricks in den Münchner Eisbachstudios die Hausmesse Data + AI Summit veranstaltet. Wir haben dort mit Roman Pritzkow gesprochen, den RVP DACH.

 

Herr Pritzkow, zum Einstieg eine provokante Frage: Kann durch KI der Fachkräftemangel gelöst werden?

Roman Pritzkow: Eine interessante Frage. Im Augenblick generiert KI mehr Bedarf an Fachkräften und daher gibt es keine einheitliche Antwort darauf. Auf der einen Seite verursacht jedes neue Technologie- und Innovationsfeld einen neuen Mangel an Fachkräften, weil die erstmal nachwachsen müssen. Auf der anderen Seite reduziert jede technologische Innovation in anderen Bereichen den Bedarf an Fachkräften. Somit wird es einerseits schlimmer und andererseits besser. Natürlich ist es so, dass die High-Tech-Profile, die auf der ganzen Welt gesucht werden, auch in Deutschland eine knappe Ressource sind.

 

Ja, heutzutage einen Data-Scientist oder Data-Analyst zu bekommen … da findet man eher eine Goldader. Es ist sehr schwierig geworden.

Genau. Die Unternehmen gehen verstärkt dazu über, die Leute bei sich selbst auszubilden und umzuschulen, sprich: Upskilling, rightskilling, retraining. Das sind Themen, die dort sehr oft eingesetzt werden, weil das Leute sind, die bereits da sind, das Unternehmen kennen, das Produkt kennen, die Kultur kennen, die Kunden kennen, die viel Verständnis mitbringen. Da ist es einfach, bestimmte Fähigkeiten hinzuzufügen. Wir wenden uns mit den neuen Technologien außerdem weg von spezifischen Programmiersprachen, wie Pyhton, und sagen: Englisch ist die neue Sprache der Data Science. Das soll den Markt öffnen und das Fachkräfteproblem der Kunden lösen.

 

Das war doch vorhin auch die Sache bezüglich Open Source: Ist es einfacher, aus der Open-Source-Gemeinde, da sie größer ist, Leute zu bekommen? Ist es ein Vorteil für Databricks, dass die Firma aus dem Open-Source-Bereich stammt?

Uneingeschränkt ein Ja. Deshalb machen wird das. Es ist ein Vorteil für uns, für unsere Kunden, für unsere Partner und für jeden, der Leute sucht, weil Jahr für Jahr fähige Ressourcen von den Universitäten in den Markt drängen, nicht erst dann, wenn sich ein CIO für eine Technologie entscheidet – die dann erst ausgebildet werden müssten. Open Source löst damit sehr große Probleme bei Unternehmen und ist zudem regulatorisch in einigen Branchen sehr hilfreich, wenn man entsprechende Exit-Szenarien zur Hand haben muss und in der Lage zu sein hat, den Anbieter schnell wechseln zu können. Ein Beispiel ist der Finanzbereich.

 

Wenn man sich nun die Sprecher und Case Studies von Databricks anschaut, dann sind das meist große Unternehmen und multinationale Konzerne. Ist das ihre Kernzielgruppe, oder ist auch der gehobene Mittelstand, oder der gesamte Mittelstand auch im Fokus?

Ich glaube, dass wir in keinem Jahr so viele Neukunden aus dem Mittelstand gewonnen haben, wie 2023. Es ist, bezüglich der Anzahl der Kunden, das am stärksten wachsende Segment. Die Reife der Großkunden bezüglich unserer Themen ist natürlich besser, weil die diese vielen verschiedenen Rollen natürlich schon länger im Unternehmen haben, viel mehr Leute haben und das Volumen schlicht größer ist. Die haben alles in Viel und Groß, haben damit eine andere Schwungmasse. Deren Nutzen von solchen Aktivitäten drückt sich in viel größeren Zahlen aus und daher treiben die solche Aktivitäten viel aggressiver voran, weil es um viel mehr Geld geht, das erwirtschaftet oder gespart werden soll.

 

Aber der Mittelstand hat mittlerweile erkannt, dass er, um wettbewerbsfähig bleiben zu können, gerade was das Thema des Datenmanagements angeht, etwas tun muss. Wie ich vorhin schon sagte: Die größte Datenbank der Welt war Excel und ist es wahrscheinlich noch immer, aber eigentlich müsste doch jedem klar sein, dass es so nicht weitergehen kann, oder?

Ich glaube, das ist jedem klar. Es geht nicht mal darum, ob ich meine nächste Veranstaltung in Excel oder einem anderen System organisiere, sondern es geht darum, komplementäre Geschäftsmodelle zu entwickeln. Wenn man sich unsere Kunden-Lineups anschaut, dann ist das Thema von Daten und KI in den Kerngeschäftsprozessen angekommen. International wie national ist es so, dass neue Geschäftsfelder von Traditionsunternehmen auf dieser Basis aufgebaut werden und das ist erforderlich, weil es das alte Geschäftsmodell so vielleicht morgen nicht mehr geben wird. Das gilt vielleicht nicht für einen Einkaufswagenhersteller, aber jemand, der Einspritzpumpen baut, kann, angesichts des wachsenden Marktes für elektrische Autos, ein Problem bekommen. Aber: Die Unternehmen sind weit gekommen im Ausbau ihrer Strategien und sind nun erst an den Punkt gelangt, diese umzusetzen in Plattform-Entscheidungen und Aktivitäten. Diese Vorarbeit zahlt sich aus, die Firmen beschäftigen sich damit seit Jahren. Das hat die deutsche Wirtschaft also nicht überrascht, will ich damit sagen.

 

Hat man sich zu lange im Status quo ausgeruht, nach dem Motto, dass es schon so geht, weil wir es schon immer so gemacht haben? Vor allem im oftmals etwas trägeren Mittelstand?

Das wäre, meiner Meinung nach, nur für Einzelfälle zutreffend. Ich nehme war, dass sich im deutschen Markt keiner ausgeruht hat, sondern alle sich die Köpfe zerbrechen. Natürlich gibt es einige, die früher hätten beginnen sollen, aber die meisten machen sich schon lange Gedanken darüber.

 

Interessant. Wir haben außerdem das immer wiederkehrende Thema On-premises, hybrid, oder doch Cloud. Deutschland gilt doch als klassisches Kellerlager für Daten. Es ist freilich schon besser geworden. Musste aber auch.

Wahrhaftig. Aber die Verbesserung liegt daran, dass die Cloud-Adaption in den letzten fünf Jahren so dermaßen erhöht wurde, dass sie nicht mehr wegzudenken ist. Außerdem verlangt die Charakteristik dieser Daten-und-KI-Workloads genau das und unser kommerzielles Modell reflektiert genau diesen Bedarf. So kann ich sagen: Teure Workloads, wie interaktive Workloads, an denen Menschen kreativ arbeiten und neue Dinge erfinden, wie neue Modelle, sind zwar sehr teuer, aber wenn die optimiert werden und in Produktion gehen, dann werden die um 70 bis 80 Prozent günstiger. Das ist genau der richtige Ansatz. Natürlich, wenn ich nur auf die allein schaue, dann wirkt das viel zu teuer und niemand kann das auf Dauer so laufen lassen, aber das ist Bestandteil des Engagements: dass man das in die Produktion und Automatisierung überführt und dadurch die Kosten stark drückt.

 

Klar, es geht zur Automatisierung, bedingt durch KI und Maschinenlernen. Ich habe mir vorhin ein paar Schlagwörter von Databricks aufgeschrieben, wie »Daten zusammenbringen«. Das ist doch für Unternehmen eine große Herausforderung, die strukturierten, halb-strukturierten Daten, oder gar keine richtigen Daten, zu vereinen. Wie kann man das am besten mit Databricks tun?

Den spannendsten Vortrag dazu hat heute SAP gehalten, weil das für Deutschland besonders ist, wenn man sich den enormen Marktanteil von SAP anschaut.

 

Ja, knapp unter den Konzernen selbst.

Genau. Wenn man uns nun die Reise von Databricks und der Data Intelligence Platform, angetrieben von der Lakehouse-Architektur, anschauen, dann sind wir gestartet als Plattform für Machine Learning und Data Science, haben uns entwickelt über Konsolidierung von Data Lakes, sind reingewachsen in die Konsolidierung von Data Warehouses und jetzt kommt die nächste große Stufe: Die Konsolidierung von LLMs. Das Besondere an unserem Erlebnis mit SAP: Bislang war das Sammeln von SAP-Daten für ML-Experimente mühsam und zeitraubend. Jetzt aber, mit SAP Datasphere, hat sich die Lage seit diesem Jahr verändert. Ich finde das großartig und habe nur begeisterte Kundenstimmen dazu gehört, denn, wie vorhin im Vortrag erklärt wurde: Die Kunden müssen sich nicht mehr darauf konzentrieren, die Daten auf trickreichste Weise irgendwie aus SAP herauszuholen.

 

Wenn es überhaupt geht.

Genau! Um sie dann irgendwie weiterzubearbeiten, sondern das nun mit einem legalisierten Interface, samt Support, tun können, über Databricks. Das wird hier vieles in der deutschen IT-Landschaft verändern.

 

Wie ist denn SAP dazu gekommen, diese Kooperation mit Databricks zu machen?

Naja, man muss sich die Lakehouse-Architektur als solche anschauen. Die wurde von allen relevanten Technologie-Spielern am Markt adaptiert, deshalb haben wir uns sehr gefreut, dass wir in diesem Jahr auch die Partnerschaft mit SAP auf den Weg bringen konnten. Ich denke, unser Produktportfolio und unsere Marktnähe haben uns bei SAP überzeugt. Wir sind einfach in allen relevanten Bereichen, vom High-End-LLM-Thema bis runter zum traditionellen Data Engineering Layer, der Stand der Dinge. Wir starten Innovationen, die man erstmal adaptieren muss in der Geschwindigkeit, in der wir sie einführen. Das heißt: SAP ist es gelungen, mit dieser Entscheidung von heut auf morgen den Zugriff auf Best-of-Breed-Komponenten in den wichtigsten Technologiefeldern der Welt zu haben. Das benutzen die sowohl zur Optimierung ihrer eigenen Produkte intern, als auch für ihre Kunden. Das ist natürlich eine extrem kluge und synergetische Entscheidung von SAP gewesen.

 

Vorhin habe ich gelernt, dass die Implementierung bei Flaschenpost sehr schnell ging, für mich brutal schnell: Wie lange hat das bei der SAP gedauert?

Der Vergleich ist ungerecht, wegen der unterschiedlichen Größe und Komplexität der Unternehmen, aber grundsätzlich zeichnet sich Databricks durch die Time-to-market, durch die Time-to-value aus. Dadurch, dass unser Architektur- und Produkt-Setup eben so ist, ermöglichen wir eine sehr schnelle Implementierung, aber der Kunde muss mitziehen können. Flaschenpost als Digital Native kann das. Die haben einfach einen digital-nativen Stack. Die kennen sich aus, haben die Leute, haben das selbst erfunden, das macht es einfach. Ein komplexer Konzern, wie SAP: Da spielen so viele Teams mit, dass es einfach länger dauert, als bei einem Digital Native, aber es ist dennoch um vieles schneller als jeder andere Produktentwicklungsprozess, agil oder nicht, in den letzten Jahren an Ergebnissen geliefert hat. Wenn wir schätzen, wie schnell und mit wie wenig Aufwand wir Projekte wahrscheinlich liefern können, dann trifft das häufig auf Unverständnis und Zweifel. Dann sage ich dem Kunden, als Beispiel: In Ordnung, dann verdopple die Zahlen, denn, ob es 100 000 oder 200 000 Euro kostet und drei oder sechs Wochen dauert, das ist für die Konzern-Kundenwelt völlig unwichtig, denn die sind sechs bis zwölf Monate gewohnt – und Millionen von Euros. Somit sind wir sehr effizient und schnell unterwegs.

 

Das ist genau der Aspekt, den wir gerne behandeln, der Return-on-Invest und Total-Cost-of-Ownership, denn der ist doch gerade bei den Großen oft sehr entscheidend.

Da muss ich jedoch einhaken, denn der ROI hört sich ja genauso toll an, wenn ich 20 Millionen Kosten habe, aber 100 Millionen Gewinn daraus, dann kann ich dafür auch zwei Jahre brauchen. Das funktioniert auf vier Jahre gerechnet immer noch. Unser Thema aber lautet: Du hast 100 Millionen Benefit über fünf Jahre, macht 20 Millionen pro Jahr, macht 1,6 Millionen pro Monat. Aber: Wie viele Monate brauchst du, wenn du es selbst machst, wenn du es mit irgendjemandem machst, wenn du es mit uns machst? Da sind dann die Zahlen so groß, dass es für uns unerheblich ist, ob wir 100 000 oder 200 000 in der Implementierung kosten, weil das am gleichen Tag verdient wird, an dem es ausgegeben wird. Das verstehen wir unter Time-to-value.

 

Gut, das ist freilich eine andere Dimension.

Genau, aber so läuft es bei großen Unternehmen. Das sind keine absurden Zahlen.

 

Mal kurz zurück, da sie die Hyperscaler genannt haben: Standen Sie direkt in Konkurrenz zu Google, Microsoft und AWS?

Es ist kein echter Wettbewerb, weil unser Asset ist Open Source, Cloud-agnostisch und so weiter. Das heißt: Kunden entscheiden sich für Databricks, weil sie die Entscheidung zu kaufen oder zu bauen für den Kauf getroffen haben, weil sie die Fachkräfte für das Selberbauen nicht haben. Somit ist der eigentliche Wettbewerb in der Kundensituation diese Entscheidung. Viele die vor fünf oder acht Jahren doch mit dem Selbstbau angefangen haben, realisieren nun, dass die Bauentscheidung sehr gut war, um sich ranzutasten, aber diese nicht skalierbar ist. Die laufen nun in Hürden hinein, bis sie sogar nicht mehr liefern können, während der Bedarf an all diesen Technologien und Innovationen wächst. Aus Sicht des CFO waren die Zahlen somit schön, aber nun können sie nicht mehr liefern. Das gute hier an uns für solche Firmen ist: Alles, was sie damals gelernt haben, können sie in Verbindung mit uns wieder einsetzen, weil das Konzept doch vergleichbar ist. Kein Hexenwerk.

 

Wir befinden uns erst am Beginn der Datenflut. Was da noch auf uns wartet: Smart Cities, Autonomes Fahren, IoT, IIoT, was auch immer. Wo wandern wir hin und wie können wir das überhaupt handhaben? Sprich: Datenanbindung, Daten-Streaming und so fort.

Infrastrukturell wird das sicherlich zu einigen Aufgaben führen, weil diese Datenvolumina irgendwie bewegt werden müssen und was sich architektonisch abzeichnet, das sind Mesh-Konstrukte, die in immer kleinere Zellen übergehen werden. Zentralistische Ansätze würden dem nie Herr werden. Das kann man nicht irgendwo zusammenlaufen lassen. Ich vergleich das mal mit dem Mobilfunknetz der letzten 30 Jahre. B-Netz lasse ich mal weg. Wir hatten das C-Netz: Extrem große Zellen, sehr wenig Kunden und daher sehr teuer. Aber Netz billig, weil eine Antenne fast ganz München versorgen konnte. Makro-Zellen also. Jetzt haben sich die Funknetze zu Pikozellen entwickelt, die so klein sind, dass schon zwischen zwei Hauswänden wahrscheinlich eine Funkzelle stehen müsste, um eine Dichte zu handhaben, wie sie hier in den Eisbachstudios durchaus vorkommen kann, nämliche hunderte Leute an einem Ort, die telefonieren und LTE benötigen. Dasselbe wird im Daten- und KI-Umfeld geschehen. Die Lakehouse-Architektur an sich, kombiniert mit einem Organisationskonzept wie dem Data Mesh, gibt uns die Skalierbarkeit bis runter zu einer Pikozelle, sodass ich eben eine Processing Unit namens Eisbachstudios habe und die wertet als Cloud Unit nur diese Zelle aus. Damit reduziere ich die zentralisierte Workload stark. Das können wir schon und das beruhigt mich. Das muss es morgen nicht geben, aber ich stimme zu, dass der Trend unumkehrbar ist.

 

Ein Thema haben wir bislang nur berührt: Die Sicherheit. Der Kunde kann das von sich aus nicht mehr handhaben. Er braucht Dienstleister, sonst wird es zu teuer und er kann nie auf dem Stand der Dinge sein. Über allen Daten schwebt doch die Sicherheit und wenn wir sehen, was die Hacker da draußen tun: Welche Lösungsansätze hat Databricks?

Grundsätzlich ist ein Shared Service wie Databricks das sicherste Modell, um eine Daten-und-KI-Plattform als Unternehmen zu betreiben. Allein kann ich es nicht sicherer tun. Wenn man das als gegeben nimmt, gibt es Folgefragen: Wie schütze ich mich im Zeitalter von ChatGPT und OpenAI gegen Verlust von geistigem Eigentum? Wie schütze ich mich gegen Deepfakes? Das sind große Fragen und es gibt zwar langsam erste Antworten aus der Sicherheitsbranche, aber das eine ist ein regulatorischer Prozesskomplex, was heißt: Ich muss als CIO im Unternehmen schlicht die Nutzung von offenen LLMs reglementieren; ich darf nicht gestatten, dass dort geistiges Eigentum hochgeladen wird. Das darf ich nicht und diese Verantwortung schuldet man seinen Aktionären. Jeder probiert hier derzeit rum und die Transparenz ist gering. Die Antwort wird wohl lauten: Alles, was Allgemeinwissen ist, darf mit offenen Modellen, wie ChatGPT, verwendet werden, alles, was internes Wissen ist, darf nur auf eigenen LLM-Plattformen verwendet werden, wie Databricks es auch anbietet. Das ist der Grund, weshalb man mit Databricks und Mosaic sowas aufbauen sollte, weil dort das Vertrauen gegeben ist. Dort kann man seine internen Audit-Reports und technischen Dokumentationen einspielen, ohne sie automatisch der Öffentlichkeit zur Verfügung zu stellen. Stufe eins lautet also: Regulatorik innerhalb des Unternehmens im Umgang mit den öffentlichen Plattformen. Stufe 2: Die Assets, die ich habe, dürfen nur in privaten LLM-Umgebungen laufen. Stufe 3: Die Governance, die wir mit dem Unity-Katalog seit diesem Jahr sehr erfolgreich angehen, denn eines der größten Probleme im Bereich der Datensicherheit ist die fehlende Governance. Da jeder irgendwann mal von irgendwo irgendeinen Daten-Export getan hat und auf seinem Laptop mitführt, kann ein CISO das nicht schützen. Keine Governance, keine Sicherheit. Wir helfen daher unseren Kunden mit Unity, den Überblick zu bekommen, damit sie wissen, wo deren Daten liegen und wie es damit weitergehen soll. Dann kann ich entscheiden, wie ich diese Daten gezielt schützen will. Das ist tatsächlich die sehr wichtige Stufe, dass man trotz der über Jahre gewachsenen Datenstrukturen wieder die Kontrolle erlangt.

 

Klar. Das gesamte Thema der Identitätsverwaltung spielt hier eine Rolle, damit der Auszubildende nicht die gleichen Rechte digital erhält, wie der Vorstand.

Bloß deshalb, weil beide Schmidt heißen! Sowas darf nicht passieren.

 

Und dann ist der Auszubildende Schmidt gar nicht mehr da.

Genau, der war nur 6 Monate da.

 

Wie hoch da wohl die Dunkelziffer ist.

Die ist vermutlich deshalb sehr hoch, weil die Leute gar nicht wissen, was sie verloren haben.

 

Die Latenz ist da sehr hoch.

Genau. Um es mit den Worten eines Versicherers zu sagen: Welcher Schaden ist denn entstanden, wenn die Daten weg sind? Sie haben die doch auch noch! Wenn man mal mit den Anbietern von Cyber-Schutzbriefen spricht, dann merkt man, dass die eine sehr interessante Sicht auf die Dinge haben. Da muss man erst belegen, welcher Schaden durch den Datenverlust entstanden ist. Den Stillstand der Produktion kann ich messen, stündlich. Betriebsunterbrechung ist einfach, aber Datenverlust nicht. Da verdiene ich erstmal nicht weniger.

 

Wenn man jetzt einen Ausblick auf die nächsten zwölf Monate wagen, in dieser schnellen Zeit: Wo ist dann Databricks? Welche neuen Herausforderungen haben sich ergeben? Wie sieht dann die Landschaft aus?

Ich vermute, dass wir uns wieder hier treffen werden, aber die Veranstaltung wird wesentlich größer sein. Wir beobachten, dass mit einer Verdoppelung unseres Geschäfts eine Vervierfachung unserer Community einhergeht. Das ist gut. Eine große Community würde Deutschland hier sehr leistungsfähig machen. Wir werden daher nächstes Jahr viele Sprecher haben, die über erfolgreiche SAP-Projekte sprechen, weil es nur noch eine Datenstrategie gibt. Außerdem wird es einige Sprecher geben, die erfolgreich die hybriden Konstrukte zwischen Public LLM und Private LLM implementiert haben. Das erwarte ich in einem Jahr von unserer Veranstaltung. Zudem eine Vergrößerung von Databricks in Deutschland.

 

Herr Pritzkow, wir danken Ihnen für das Gespräch und wünschen Ihnen viel Erfolg!