Big Data: Die Steigerung der Komplexitätsreduktion – Die Nadel entscheidet, nicht der Heuhaufen

Big Data: Die Nadel entscheidet, nicht der Heuhaufen

Die Goldgräber und die Öl-Sucher, alle sind sich einig: Daten sind der Goldschatz, den es zu heben, die neue Ader, die es anzuzapfen gilt. Die Devise: Mehr, mehr, mehr. Schneller, schneller, schneller. Die Technologien sind hinlänglich bekannt, das Bewusstsein für Big Data in den Köpfen der Anwender fest verankert. Doch was tun mit den geschaffenen Daten-Heuhaufen? Wo sind die Erkenntnis-Nadeln? Wie viele Nadeln gibt es überhaupt? Noch viel entscheidender für viele Unternehmen die Frage: Birgt mein Business Case überhaupt eine Nadel? Big Data, Big Opportunities? Eine Bestandsaufnahme.

Kaum ein Tag ist im letzten Jahr vergangen, an dem Big Data kein Thema war. Big Data ist zum Synonym für große Möglichkeiten avanciert. Die Wettbewerbsvorteile für alle Branchen, ja für alle Bereiche des gesellschaftlichen Lebens werden als immens bezeichnet. Jeder, der keine Daten sammelt, spielt mit seinem Erfolg, so die Botschaft. Jeder, der bisher keinen durchschlagenden Erfolg hatte, wird ihn mithilfe von Big Data erreichen, so das Versprechen. Im selben Atemzug wird der Siegeszug der »data driven company« postuliert. Also jenes Unternehmen, welches die datengetriebenen Entscheidungsprozesse über sämtliche Unternehmensbereiche hinweg in den Vordergrund stellt und Mitarbeiter ermutigt, Entscheidungen auf Basis von Daten und adäquaten Analysen zu hinterfragen – hierarchieübergreifend. In einer Umfrage der Intelligence Unit des »The Economist« aus dem Jahr 2012 wurde festgestellt, dass genau die Unternehmen, die eine datengetriebene Unternehmenskultur leben, am erfolgreichsten sind.

Monströse Heuhaufen. Doch was bedeutet das konkret? Dass Unternehmen umso erfolgreicher sind, je mehr Daten sie besitzen? Die technische Seite von Big Data legt diesen Schulterschluss nahe. Schließlich sind doch die Möglichkeiten der Speicherung von riesigen Datenmengen grenzenlos. Wer hat noch nicht von Hadoop gehört? Die Heuhaufen an Daten also einfach immer größer werden lassen, dann kommt der Erfolg von ganz alleine?

Die Big-Data-Entwicklung birgt in der Tat großes Potenzial, doch birgt sie ebenso große Herausforderungen: Denn was nützt der größte Heuhaufen, wenn die erwartete Nadel nicht darin ist? Oder schlimmer noch, wenn sie nicht einmal existiert? Ein Artikel des Wall Street Journals zu Beginn des Jahres 2013 schlägt genau in diese Kerbe: Technologie war noch nie ein adäquater Ersatz für »Führungsstärke«. War sie noch nie und wird sie auch künftig nicht sein. Das bloße Sammeln von Daten zum Selbstzweck ist nicht zielführend. Es führt lediglich zu vielen monströsen Heuhaufen – ohne Nadeln [1].

Erst die präzise Frage, dann die Technik. Doch natürlich gibt es sie: die Beispiele erfolgreicher Big-Data-Projekte. Sie identifizieren neue Märkte, steigern signifikant den Umsatz, reduzieren drastisch die Kosten oder verkürzen Innovationszyklen. Die Frage ist: Wie?

Bei näherer Betrachtung haben diese Initiativen alle eines gemeinsam: Die Projektbeteiligten haben eine klare Vorstellung, welchen konkreten Nutzen bestimmte Daten haben können. Die Kunst ist demnach nicht, Unmengen an Daten anzuhäufen, sondern die richtigen Datentöpfe im eigenen Unternehmen ausfindig zu machen und diese mit Hilfe gezielter Fragestellungen zu bearbeiten und für den Entscheidungsprozess aufzubereiten.

Bereits im Jahr 2006 wies Michael Palmer in einem Blog-Beitrag mit dem Titel »Data is the New Oil« darauf hin, dass Daten in ihrer rohen Form (Rohöl) zunächst keinen tatsächlichen Nutzen haben. Erst wenn die Daten raffiniert (aufbereitet) werden, entsteht Mehrwert [2]. Hieraus lässt sich ableiten, dass erst, wenn die Fragestellung hinreichend präzise formuliert ist, eine entsprechende Technologie ausgewählt werden sollte, um das Potenzial, das sich in riesigen Datenmengen verbergen kann, zu heben.

Polystrukturierte Datenmengen. Dabei ist die Form der Daten letztlich unerheblich. Denn egal, was der Mensch tut, er sucht nach Strukturen, Mustern, Zusammenhängen oder Abweichungen im Vertrauten. Was Big-Data-Lösungen mit Sicherheit geschafft haben, ist die Weitung des Horizonts, was unter relevanten Daten zu verstehen ist. Denn nicht länger müssen Daten zwingend in strukturierter Form vorliegen. Auch semi- (beispielsweise XML-Dateien) und unstrukturierte (beispielsweise Text-Dateien) Formate können in den Analyseprozess miteinbezogen werden. Der Diskurs über polystrukturierte -Datenmengen hat sicherlich dafür gesorgt, dass bisher unbeachtete (Detail-)Informationen in den Wissensprozess integriert werden konnten [3].

Zwei Beispiele. Es ist gar nicht un-bedingt erforderlich, neue (externe) Daten-töpfe für die Analyse zu erschließen. Bereits heute stehen in Unternehmen Datenquellen zur Verfügung, die vielfach noch gar nicht als solche identifiziert wurden. Ein Beispiel aus dem produzierenden Gewerbe: Sensordaten oder Fehlerspeicher von Produktionsmaschinen (machine generated data). Es ist sicherlich kein Einzelfall, dass in einem Produktionsunternehmen beim Wechsel der Schicht der alte und neue Maschinenführer die Anzahl der protokollierten Fehler zu Papier gebracht und anschließend den Fehlerspeicher zurückgesetzt haben. Werden diese Fehler beim Auftreten mit einem entsprechenden Zeitstempel und einer Maschinennummer versehen sowie automatisiert gespeichert, können diese Fehler mit einem Maschinenbelegungsplan in Beziehung gesetzt werden. -Hieraus lassen sich Erkenntnisse gewinnen, um Wartungsintervalle zu optimieren oder Störungen in Verbindung mit bestimmten Materialien zu setzen. Genauso gut ist es vorstellbar, dass dieselben Maschinendaten auch an den Hersteller übermittelt und der Ausführungszeitpunkt für Maschinen-Revisionen in Abhängigkeit des Maschinenbelegungsplans durchgeführt werden, um Standzeiten zu vermeiden.

Ein Beispiel für eine Business-Intelligence-Plattform mit Anschluss an Hadoop, die den Anwender in den Mittelpunkt stellt und einen Rahmen aufspannt, in dem er sich gemäß seiner eigenen Bedürfnissen und Anforderungen zielgerichtet bewegen kann. Dabei verschwindet die Technologie hinter der Anwendung.

Ein Beispiel für eine Business-Intelligence-Plattform mit Anschluss an Hadoop, die den Anwender in den Mittelpunkt stellt und einen Rahmen aufspannt, in dem er sich gemäß seiner eigenen Bedürfnissen und Anforderungen zielgerichtet bewegen kann. Dabei verschwindet die Technologie hinter der Anwendung.

Auch wird bereits in Pilotprojekten großer KFZ-Versicherer auf Grund-lage der Sensordaten von Kraftfahrzeugen in Abgleich mit den  Positionsdaten individuelle Versicherungsprämien für den einzelnen Versicherungsnehmer berechnet – in direkter Abhängigkeit mit der angepassten oder unangepassten Fahrweise desselbigen.

Der Schlüssel zum Erfolg. Was die Beispiele aufzeigen: Der Schlüssel zum Erfolg bei Big-Data-Projekten liegt – wie so oft – nicht in der Quantität, sondern in der Qualität der Daten, respektive der Heuhaufen. Um die Spreu vom Weizen zu trennen, ist es notwendig, das Erkenntnisinteresse im Vorfeld klar zu umreißen. Steht die Grundidee, ist es möglich, mit speziellen Analysemethoden auch die riesigste Datenmenge auf der Suche nach der Nadel der Erkenntnis zu durchforsten und diese auch zu finden. Und viel wichtiger noch: im Vorfeld die richtigen Datenmengen für das jeweilige Interesse zu identifizieren. Dabei hilft die Idee einer »data driven -culture«, Daten und Analysen als zusätzlichen Produktionsfaktor ernst zu nehmen und auch Personen in den Entscheidungsprozess einzubeziehen, die bisher aufgrund von Exklusivitätsgedanken außen vor blieben.

Der Anwender von Big-Data-Lösungen rückt damit in den Mittelpunkt. Jeder sollte in einem Unternehmen in der Lage sein, sein Fach- und Bereichswissen mit zielgerichteten -Datenanalysen zu flankieren. Der nahezu spielerische Umgang mit riesigen Datenmengen, in einer aus der Business Intelligence vertrauten Ad-hoc-Manier, wird immer wichtiger. Auch die Renaissance von SQL als Abfragesprache im Zusammenhang mit -NoSQL-Datenbanken zeigt eine Hinwendung zum Business-Analysten als Anwender von Big-Data-Technologien und eine Abkehr vom Data Scientist als Gralshüter der riesigen Datenmengen. Ein wesentlicher Aspekt dieser Entwicklung ist die Geschwindigkeit, mit der Anwendungen auf Anfragen reagieren. Denn die kurzen Antwortzeiten sind Anwender von Business-Intelligence-Anwendungen gewohnt. Es ist daher davon auszugehen, dass die Verschmelzung von neuen (beispielsweise HDFS und Map&Reduce) und etablierten (beispielsweise columnar analytical databases) Technologien immer schneller voranschreiten wird.

Resümee. Es mutete paradox an, dass die meisten Erfolge von Big-Data--Projekten, nicht die Resultate einer drastisch gesteigerten allgemeinen Datenmenge sind, sondern sich der Identifikation kritischer Datenmassen in Kombination mit einer Steigerung der Komplexitätsreduktion des Datenberges verdanken. Diese Erkenntnis führt im Umkehrschluss deutlich vor, dass es die eine standardisierte Big-Data-Lösung nicht gibt. Gar nicht geben kann, da jeder Anwendungsfall unter individuellen Vorzeichen steht und der geldwerte oder erfolgskritische Vorteil jeweils ein anderer ist. Mit anderen Worten: die Methodik bleibt die Gleiche, die Lösung nicht dieselbe. Für Unternehmen bedeutet das, eine abteilungsübergreifende Analysearchitektur zu etablieren, die integrativ, skalierbar und auch für den Business-Anwender einfach zu bedienen ist und damit von ihrer Anlage her flexibel auf künftige Erkenntnisinteressen reagieren kann, ohne dass es notwendig ist, permanent mit Speziallösungen für den Einzelfall nachzurüsten. Dann ist es auch möglich, Nadeln zu finden. Vielleicht auch eine Goldene.


autor_thomas_martensThomas Martens, 
VP Product Marketing,
Cubeware GmbH

[1] http://online.wsj.com/news/articles/SB10001424127887324196204578298381588348290

[2] http://ana.blogs.com/maestros/2006/11/data_is_the_new.html

[3] http://gigaom.com/2013/05/23/big-data-at-work-12-stories-about-reinvention/

Titelbild: Shutterstock.com/grekoff

 

Weitere Artikel zu