Kontextbasierte Datenanalyse – Datenqualität: Erfolgsfaktor in der Digitalwirtschaft

Kontextbasierte Datenanalyse

Same-Day Delivery ist ein aktueller Trend im E-Commerce. Amazon bietet seit einiger Zeit in zehn US-Großstädten die Zustellung von Online-Bestellungen noch am gleichen Tag an. Wer bis Mittag bestellt, erhält sein Päckchen bis zum Abend. Es ist nur eine Frage der Zeit, bis der Trend auch in Europa ankommt. Doch zum Erfolg wird die Blitzlieferung nur mit hoher Datenqualität. Zum Beispiel muss die Lieferadresse stimmen, der Kunde sollte dort wirklich angetroffen werden. Datenqualität ist somit ein kritischer Erfolgsfaktor, aber in vielen Unternehmen mangelt es daran.

Die Studie eines E-Commerce-Beratungsunternehmens deckte eklatante Schwächen im Datenmanagement auf. Beinahe jedes Unternehmen (91 Prozent) sei von unvollständigen, fehlenden, veralteten und fehlerhaften Daten betroffen. Rund ein Fünftel (19 Prozent) der Informationen sind nach Ansicht der Unternehmen für Marketing und Vertrieb unbrauchbar. Diese Mängel summieren sich in der Gesamtwirtschaft zu einem erheblichen Wertverlust.

Das Data Warehousing Institute schätzt allein in den USA die Kosten von Problemen mit der Datenqualität auf etwa 600 Milliarden US-Dollar jährlich. Wenn man diese Zahlen auf Deutschland umrechnet, entspricht das einer Belastung von zirka 186 Milliarden Euro, haben Experten des Fraunhofer-Instituts für Arbeitswirtschaft und Organisation (IAO) berechnet.

Doch besonders für datengetriebene Unternehmen ist Datenqualität das A und O. Herkömmliche Datenbankmanagementsysteme, die nach dem traditionellen relationalen Modell arbeiten, besitzen nur wenige eingebaute technologische Verfahren, um Zweifelsfälle zu entscheiden. Trotzdem sind sie immer noch weit verbreitet. Nach einer aktuellen Studie der Marktanalysten der BARC GmbH (Business Application Research Center) nutzen 62 Prozent der befragten Unternehmen mit Big-Data-Initiativen relationale Datenbanken und weitere 24 Prozent planen ihren Einsatz.

Kurz: Die Jahrzehnte alte RDBMS-Technologie soll auch in der datengetriebenen Wirtschaft den Erfolg garantieren. Die BARC-Analysten bezweifeln dies allerdings: »Das enorme Wachstum verschiedenster Anwendungsfelder für Big Data dürften die Standardwerkzeuge schnell an den Rand ihrer Leistungsfähigkeit bringen.« Deshalb sind in der Regel ergänzende Anwendungen nötig, die beispielsweise auf eine Erhöhung der Verarbeitungsgeschwindigkeit durch verteilte Systeme setzen. Die bekannten Stichworte sind Big-Data-Appliances, Hadoop und das MapReduce-Verfahren.

Kontextbasierte Datenbank. Eine Alternative zu dieser Vorgehensweise ist eine kontextbasierte Datenbank. Sie speichert Daten nicht in Relationen, sondern in Kontexten. Dies sind zusammengehörige Informationspakete, die zusätzliche Hintergrundinformationen enthalten. Anders als im relationalen Modell werden die Daten also nicht in Fragmente aufgespaltet, sondern im Zusammenhang gespeichert. Ein einfaches Beispiel für die Bedeutung des Kontextes sind Kundeninformationen. Dazu gehören neben der Adresse auch eine mögliche Bestellhistorie, Informationen aus dem Kundenservice oder Aussagen über die Qualität des angebotenen Services. Aber auch Informationen aus sozialen Netzwerken oder die geographische Nähe unterschiedlicher Kunden. Dabei ist es wichtig, dass dieser Zusammenhang dynamisch gebildet und jederzeit neu geordnet werden kann.

Es gibt in den Datenbanken meist ähnliche Datensätze, die möglicherweise auf denselben Kunden verweisen. Im Regelfall geschieht die Erkennung der Dubletten automatisch. Kriterien dafür sind die phonetische Ähnlichkeit des Namens und die geographische Nähe der Adressen.

Eine Bewertung der Daten erfordert aber eine manuelle Analyse, denn beispielsweise könnte in einem Datensatz die Straße falsch sein, im anderen aber die Postleitzahl. Eine solche Entscheidung benötigt zusätzliche Informationen wie etwa ein Straßen- und Postleitzahlverzeichnis. Bei kleinen Datenbanken ist eine Korrektur in Handarbeit möglich, aber Millionen von Adressdaten erfordern entsprechende Werkzeuge.

So könnte eine Software die Bestellhistorie und geographische Nähe der jeweiligen Kunden auf Ähnlichkeiten analysieren und auf diese Weise zu einer Entscheidung kommen, ob die beiden Datensätze möglicherweise identisch sind. Weiterhin ist es möglich, automatisiert nach Profilen des Kunden in sozialen Netzwerken zu suchen um damit die Informationstiefe der Daten zu verbessern. Die dynamische Knüpfung von Verbindungen über Daten und Systemgrenzen hinweg wird üblicherweise unter dem Begriff »Kontext« gefasst. Kontexte sind ein zentrales Merkmal unserer Kommunikation. Nur im Kontext können wir Sachverhalte korrekt einordnen und verstehen Aussagen im Ursprung ihrer Bedeutung.

Context Broker. Systeme, die entscheidungsrelevante Kontexte in heterogenen Daten identifizieren, bezeichnet man als »Context Broker«. Sie verarbeiten strukturierte und unstrukturierte Datenmengen, indem sie Informationsmuster in den Rohdaten entdecken. Gespeichert werden die ermittelten Daten allerdings nicht in einem herkömmlichen RDBMS, sondern in einer kontextbasierten Datenbank.

Ein Werkzeug zur kontextbasierten Datenanalyse wie beispielsweise MIOvantage von MIOsoft gilt als besonders geeignet für alle Aufgaben rund um Datenqualität. Die auch als Desktoplösung konzipierte Software kann Daten aus einer Vielzahl von Systemen oder Datenströmen sammeln, automatisch kategorisieren und abspeichern. Dabei identifiziert sie Informationsmuster und stellt diese in Form von Kontextstrukturen für weiterführende Analysen zur Verfügung. Für besonders große Datenmengen und komplexe Rechenoperation steht eine automatisch skalierende Variante für verteilte Serversysteme zur Verfügung.

Konkret heißt das: Daten, die zusammengehören, werden – ungeachtet der Datentöpfe, aus denen sie stammen – zu Bündeln zusammengefasst, sodass sie effizient analysiert werden können. Außerdem ermöglicht die Kontextbildung die Bereinigung von Redundanzen beziehungsweise das Identifizieren von Datendubletten. »Im Unterschied zum klassischen ETL-Verfahren, bei dem durch Datenumwandlung bereits Informationen verloren gehen, kann MIOvantage die Daten auch in komplexen Strukturen komplett laden, ohne sie zuvor in ein Datenmodell überführen zu müssen. Wir sprechen hierbei von ELT, dadurch ist sehr schnell eine erste visuelle Inspektion der Daten möglich«, erklärt Jörg Schmidt, Sales Director MIOsoft Deutschland.

Zusammengefasst: MIOvantage kann mittels einer Kombination aus kontextbasierter Speicherung und In-Memory-Technologie Massendaten in Echtzeit lesen, transformieren und in Beziehung zueinander setzen. Damit erfüllt die Software den Anspruch, für maximale Sondierungseffizienz zu sorgen. Doch was können die Unternehmen damit erreichen?

Datenqualität heben – Kundenzufriedenheit steigern. Im E-Commerce, aber auch im stationären Handel wird die Qualität der Adressdaten stringent überwacht. Hier werden ständig neue Kundenadressen erfasst, so dass ein Abgleich mit den Bestandsdaten durch Kontextbildung notwendig ist. Die eindeutige Identifizierung von Kunden hilft bei der Reduzierung von Fraud durch den Ausschluss »schwarzer Schafe«. Ist der Kontext gebildet, kann mithilfe einer gezielten Datenanalyse die Bestellmenge optimal an der Nachfrage ausgerichtet werden. Dadurch kann knapper Lagerraum effizienter genutzt werden, weil »Langsamdreher« nicht in zu großen Stückzahlen nachbestellt werden.

Außerdem gibt es durch Big Data zahlreiche Möglichkeiten, das Management und die Prognose von Retouren zu verbessern. So finden sich in den Kontextdaten möglicherweise bislang unbekannte Gründe für zu häufige Rücksendungen, die dann abgestellt werden können. Im gesamten B2B-Sektor kann durch Analysen des Einkaufsverhaltens der Kunden das Marketing deutlich verbessert werden. Besonders effizient ist hier eine intelligente Verknüpfung der Basisdaten mit Kontextdaten wie etwa Äußerungen zu den Produkten in sozialen Netzwerken.

Doch Datenqualität ist auch in der herstellenden Industrie essenziell. Zunehmend findet im Zeitalter von Industrie 4.0 die Echtzeitauswertung von Sensoren und Produktionsdaten Anwendung. Durch Hinzunahme anreichender Daten können mögliche Störungen in der Produktion besser vorhergesagt werden. Dies gelingt nur, wenn die Datenkonsistenz prozessübergreifend sichergestellt werden kann. Oftmals sind Daten verschiedener Produktionsanlagen disjunkt und könnten nicht zusammenhängend analysiert werden. Auch hier ist der kontextbasierte DQ-Ansatz zielführend.

Letztlich gibt es für Kontextdaten immer wieder neue Quellen, Big Data wird immer umfangreicher. So dürfte zum Beispiel das Internet der Dinge einen neuen Schub in den Datenmassen geben, die von Unternehmen ausgewertet werden müssen. Datenqualität wird so zum entscheidenden Kriterium für Erfolg im Big-Data-Zeitalter.


Pierre Schoof
Bild: © anaken2012/shutterstock.com