Einmal Datensee und zurück: relationale Datenbank und polystrukturierte Daten

 

foto cc0 pixabay pretty-design see baum

foto cc0

Laut einer aktuellen Studie des Gartner Instituts investieren bereits über 75 % der befragten Unternehmen in Big-Data-Lösungen oder planen Investitionen bis 2017. Auch im Mittelstand ist das Thema angekommen. Der zum Sommer mit Spannung erwartete SQL Server 2016 bietet auch kleineren Unternehmen die Chance, Big-Data-Technologien ohne großen Aufwand zu installieren und zu nutzen – mit hoher Performance, SQL-Abfragen über PolyBase und integriertem »R«-Code.

Die Erwartungen vor dem Launch des neuen Server SQL 2016 sind groß: Microsoft selbst spricht von einem Quantensprung – mit bis zu 30-fach schnelleren Transaktionen, mehr als 100-fach schnelleren Abfragen als datenträgerbasierte relationale Datenbanken durch die verbesserte In-Memory-Leistung und Echtzeitanalysen. Weitere zentrale Themen sind Hochverfügbarkeit und Auslagerung in die Cloud ebenso wie hohe Sicherheit durch die always-encrypted Technologie. Schnelligkeit, Performance und Sicherheit stehen für IT-Verantwortliche an erster Stelle. Eine Entscheidung für oder gegen einen Umstieg auf einen neuen Server wird jedoch auch davon abhängen, mit welchen Anforderungen an die IT in Zukunft zu rechnen ist.

Hier kommt eine weitere Größe ins Spiel, die nicht so leicht kalkulierbar ist: Speicherung, Analyse und Nutzung riesiger Datenmengen, bekannt unter dem Stichwort Big Data. Es geht zunehmend darum, Muster und Zusammenhänge in großen Datenmengen nicht nur zu finden, sondern auch Prognosen und Szenarien daraus abzuleiten; letzteres wird unter Predictive Analytics zusammengefasst. Eines der bekanntesten Beispiele im Bereich der IoT-Anwendungen ist sicher die Wartung von Aufzügen bei einem der weltweit größten Hersteller von Aufzugsanlagen mit Sitz in Deutschland, basierend auf einer Echtzeitanalyse aller Daten weltweit. Aber auch Banken, Dienstleister, selbst die Polizei, arbeiten bereits mit solch datenbasierten Vorhersagen. Für Unternehmen geht es dabei um die Zukunft – um schnelle und gesicherte Entscheidungen und neue Geschäftsmodelle.

Big-Data-Nutzung – Anforderungen und Hürden

In der Praxis mittelständischer Unternehmen stößt die Speicherung und Nutzung noch auf einige Hindernisse. Sie wird häufig mit der – komplexen und langwierigen – Entscheidung für oder gegen eine Auslagerung in die Cloud verknüpft. Das kann zu Verzögerungen führen.

Die Speicherung großer Datenmengen erfordert auch ein Umdenken, da sie den Gepflogenheiten widerspricht. Zum einen durch ihre scheinbare Ziellosigkeit: Es gehört gerade zur Charakteristik von Big Data, dass zum Zeitpunkt der Speicherung noch nicht klar ist, wofür sie einmal genutzt werden – die Zusammenhänge zwischen den Daten müssen ja erst aufgedeckt werden. Zum anderen ist es die Art der Daten: Neben Kennzahlen, deren Relevanz für das jeweilige Geschäft sofort erkennbar ist, speisen sich diese riesigen Datenmengen zum größten Teil aus dem ständigen Grundrauschen, das jede digitale Transaktion als Nebenprodukt zwangsläufig erzeugt. Die Rede ist von unzähligen Status- und Transaktionsdaten, Protokolldaten von Wartungen. Solche polystrukturierten Daten wurden in der Vergangenheit zumeist gelöscht, sobald sie nicht mehr benötigt wurden – vor allem auch, um Speicherplatz und somit Kosten zu sparen.

Für Big Data gilt jedoch: Was heute irrelevant erscheint, kann morgen wichtig sein (»Today’s noise is tomorrow’s information«). Es ist also grundlegend, sämtliche Daten zunächst zu speichern und eine eigene Datenbasis aufzubauen. Damit sind IT-Abteilungen auch für die Zukunft gerüstet, denn wie die eingangs erwähnte Gartner-Studie auch zeigt, gehen inzwischen 31 % aller der Big-Data-Initiativen in den befragten Unternehmen von den Fachbereichsleitern aus (gegenüber 25 % im Vorjahr). Mit wachsenden Anforderungen aus den Geschäften ist also zu rechnen.

Hadoop – neue Heimat für polystrukturierte Daten

Für eine kostengünstigere Speicherung macht man sich die Tatsache zunutze, dass solche polystrukturierten Daten vor dem Speichern nicht extra aufbereitet werden müssen. Im Gegenteil: Bei einer unpassenden Strukturierung könnten sogar wertvolle Informationen verlorengehen. Daher werden diese Daten nicht in Datenbanken, sondern unstrukturiert und kostensparend in »Data Lakes« abgelegt. Microsoft greift hierzu auf das bewährte Open-Source-System von Hadoop zurück. Eine Auslagerung in die Cloud ist jederzeit und flexibel möglich, aber nicht von Anfang an zwingend. Die Entscheidung für die Speicherung und künftige Big-Data-Nutzung ist also nicht mehr unmittelbar an eine Entscheidung für oder gegen eine Cloudnutzung gebunden, diese unternehmensinterne Hürde entfällt.

Website-Protokolle zum Beispiel könnten ungeordnet einfach in Hadoop abgelegt werden. Der Anwender hat dabei die freie Wahl, Hadoop separat und als Open Source lokal zu betreiben, in der Cloud bei einem beliebigen Anbieter zu mieten oder aber die integrierte Lösung von Microsoft, HDInsight, und die Microsoft Cloud zu nutzen.

PolyBase – die Brücke zu Hadoop

Nicht nur möglichst kostengünstige Speichermöglichkeiten, auch die Analyse der großen Datenmengen ist für IT-Abteilungen kleinerer Unternehmen eine Herausforderung, da häufig die Kompetenzen noch nicht aufgebaut werden konnten und es keine ausgebildeten Datenwissenschaftler (data scientists) in den Unternehmen gibt. Wie passt ein SQL Server, der vielen doch als »Triumph der Struktur« gilt, zu riesigen Datenseen, der Domäne der Data Scientisten? Mit Hilfe eines neuen Features – PolyBase – können die auf Hadoop unstrukturiert abgelegten Daten über SQL-Abfragen abgerufen und analysiert werden. Mit dieser Übersetzung in die vertraute Abfragesprache schafft Microsoft den Übergang zwischen relationaler Datenbank und polystrukturierten Daten. Für kleinere Unternehmen entfällt somit eine weitere Hürde: Es muss nicht sofort ein Data Scientist beschäftigt werden, um die einmal auf Hadoop gespeicherten Daten auch nutzen zu können.

Programmiersprache R als Bestandteil des Servers

Dieser Übergang funktioniert auch in die andere Richtung. Data Scientisten werten Daten am häufigsten mit Hilfe von »R« aus. Die Programmiersprache ermöglicht die Erstellung von Statistiken und grafischen Auswertungen, aber auch Vorhersagen aus polystrukturierten Daten. Wollte man diese Funktionen auch für Daten in relationalen Datenbanken nutzen, so musste früher zunächst ein R-System parallel zum DB-Server aufgebaut werden. In SQL erzeugte Daten wurden in der Regel in einer Textdatei zwischengespeichert, zeitversetzt im R-System eingelesen, ausgewertet und rückübertragen – aufwendig und zeitintensiv.

Ab SQL 2016 wird »R« nun auch Bestandteil des Datenbankservers, der Zusatzaufwand für ein Parallelsystem entfällt somit komplett. R-Skripte können dann direkt im Datenbank-Server ausgeführt und somit alle Vorhersagen und statistischen Auswertungen auch auf die in der relationalen Datenbank gespeicherten Daten angewandt werden.

Dieses Zusammenspiel von traditioneller Datenbank und polystrukturierten Daten unter Hadoop ermöglicht es auch kleineren Unternehmen, ohne komplexe Architekturen und ständige Unterstützung durch interne Data Scientisten ihre Chancen bei Big Data wahrzunehmen. Ceteris unterstützt bei Konzeption und Aufbau. Einmal aufgesetzt, sind die Systeme leicht vom Kunden selbst zu betreiben, ob lokal oder in der Cloud.

Markus Raatz

Markus Raatz, Vorstand Ceteris AG
www.ceteris.ag