In-Memory-Technologie macht’s möglich – Dublettensuche um den Faktor 8 beschleunigt

Dublettensuche mit In-Memory-Technologie

Die Dauer eines Arbeitsvorgangs auf ein Achtel der zuvor benötigten Zeit zu senken und das Ergebnis sogar noch qualitativ zu verbessern, mutet märchenhaft an. Doch es ist Realität: Die 1&1 Internet AG aus Montabaur – einer der größten Internet Provider weltweit und Europas größter Webhoster, hat genau das bei der Optimierung der Dublettensuche in ihren konzernweit mehr als 20 Millionen Kundenstammdaten geschafft. Möglich wurde der Performance-Boost durch den Einsatz des Data Quality Servers von Omikron in Verbindung mit der In-Memory-Technologie.

Wer in hochdynamischen Wachstumsmärkten unterwegs ist, kann sich langes Warten bei erfolgskritischen Geschäftsprozessen nicht leisten. Der international tätige Konzern 1&1 hatte sich beim Management seiner Kundenstammdaten lange Zeit in Geduld geübt. 36 Stunden dauerte es Ende 2013, bis die konzernweit gut 20 Millionen Stammdaten deutscher Kunden auf Dubletten geprüft waren und in bereinigter Form für Akquisitions- und Kommunikationsprozesse zur Verfügung standen.

Da das Unternehmen täglich Hunderte und teilweise Tausende neuer Kunden hinzugewinnt, muss der Dublettensuchlauf in möglichst kurzen Takten immer wieder neu gestartet werden. Geschieht dies nicht, wächst die Gefahr, dass Kunden bei Up- und Cross-Selling-Aktionen sowie Info-Mailings mehrfach angesprochen oder angeschrieben werden. Das wiederum ist schlecht fürs Image und gefährdet potenziell Wachstum und Geschäftserfolg.

Kundenstammdaten liegen in verschiedenen operativen Systemen. Um die Dublettensituation beim rheinland-pfälzischen Internet- und Telekommunikations- und Webhosting-Spezialisten besser zu verstehen, bedarf es eines Blickes in die Firmenhistorie. Seit der Gründung 1988 ist das Unternehmen rasant gewachsen, einerseits durch Übernahmen, andererseits und vor allem durch organische Kundenzugewinne. Heute werden die Geschäfte primär von zwei Gesellschaften geführt: Die 1&1 Telecommunication AG betreibt das inländische Access-Geschäft (Mobile und DSL). Das Applications-Geschäft, das alle Hosting- und Portalaktivitäten umfasst, wird in der 1&1 Internet AG gebündelt.

Aufgrund der engen Verwandtschaft ihrer Produkte treten die Unternehmen im Markt gemeinsam auf. Die Kundenstammdaten liegen je nach Produktbereich und Herkunft der Geschäftseinheiten in verschiedenen operativen Systemen. Die historisch gewachsene, heterogene Systemlandschaft und der Umstand, dass man über verschiedene Kommunikationskanäle mit diversen Produkten Kunde werden kann, führen dazu, dass zahlreiche Personen mehrfach gelistet sind und im Tagesgeschäft ständig weitere Dubletten entstehen.

Das Team Target Group Management (TGM) hat als interner Dienstleister die Aufgabe, die Kundendaten aufzubereiten und konzernweit für die beschriebenen Vertriebszwecke bereitzustellen. Teilweise geschieht dies mittels einer Datenplattform, auf der Business-Partner und Kampagnen-Manager selbsttätig Selektionen durchführen können, ohne ausgeprägtes technisches Know-how haben zu müssen und auf externe Hilfe angewiesen zu sein. Dublettenfreie Stammdaten braucht man aber auch für den Abgleich mit gekauften Interessentendaten. Die in den eigenen Stammdaten ermittelten Dubletten wiederum werden von der Abteilung Enterprise Advanced Analytics (EAA) benötigt, die damit auf Personenebene Scorings durchführt.

Mit dem rasanten Kundenwachstum verlängern sich die Dublettenprüfprozesse. Beim Dublettenabgleich hat sich diese Vorgehensweise bewährt: Alle Stammdaten werden aus den operativen Systemen in ein zentrales Stammdaten-Repository extrahiert. Dort kann man sie isoliert auf Dubletten untersuchen und in harmonisierter Form für die Kampagnenselektion zur Verfügung stellen. Im Schnitt laufen täglich bis zu zwanzig Datenselektionen für verschiedenste Kampagnen und andere Zwecke. Aufgrund der spezifischen System- und Prozessarchitektur lassen sich die dublettenbereinigten Stammdaten nicht in die operativen Systeme zurückschreiben, vielmehr muss der Abgleich zyklisch immer wieder neu angestoßen werden. Durch das starke Kundenwachstum war die Dauer der Dublettenprüfung bis Ende 2013 auf anderthalb Tage allein für die deutschen Kunden angestiegen. Eine viel zu lange Frist, zumal die Abgleiche auch mit den Stammdaten der Auslandsgesellschaften durchzuführen sind. Unter den gegebenen Bedingungen konnte das TGM-Team den Prozess für die Dublettenprüfung nur noch maximal zweimal pro Woche durchführen, war also mit den Daten bei weitem nicht tagesaktuell.

Ziel: Dauer des Dublettensuchlaufs deutlich reduzieren. Wie war es zu dieser Situation gekommen? Bereits seit Anfang des Jahrtausends setzte der Internet- und Telekommunikations- und Webhosting-Spezialist die Software eines Datenqualitätsdienstleisters zur Dublettensuche ein. Aufgrund der Internationalisierung seiner Aktivitäten musste das Unternehmen 2008 seine Datenbanken auf den Unicode-Zeichensatz UTF-8 umstellen, was die vorhandene Datenqualitätslösung nicht unterstützte. Nach einer Marktanalyse entschied man sich für das Adress Center der Omikron Data Quality GmbH. Die neue Software beherrschte nicht nur internationale Zeichensätze, sondern arbeitete auch deutlich schneller als das bisher verwendete Werkzeug. Mit dem Adress Center war man bei den Westerwäldern sehr zufrieden, und es wäre wohl noch heute im Einsatz, wenn durch die wachsende Stammdatenmenge der Abgleich nicht immer mehr Zeit verschlungen hätte. Das TGM-Team nahm deshalb Kontakt zu Omikron auf, um eine zuvor schon diskutierte Idee zu konkretisieren: den Transfer der Prozesse auf den Data Quality Server, verbunden mit dem Ziel, die Dauer des Dublettensuchlaufs auf deutlich unter zwölf Stunden zu reduzieren.

Von 36 auf 4,5 Stunden – ein enormer Performance-Boost! Die Omikron-Spezialisten betrachteten diese Vorgabe als machbar, und so startete Anfang 2014 das Migrationsprojekt. Nach einigen Wochen Parallelbetrieb wurde der Data Quality Server bereits am 18. März 2014 live geschaltet. Mit einem begeisternden Ergebnis: Der neue Prozess für die Dublettenprüfung mit mehr als 20 Millionen Kundenstammdaten dauerte nur noch 4,5 Stunden, ein Achtel der zuvor benötigten Zeit. Das TGM-Team quittierte den riesigen Leistungssprung mit Erstaunen und Zufriedenheit. Durch den kontinuierlichen Stammdatenzuwachs wird sich die Dauer der Dublettenprüfung mit der Zeit zwar allmählich wieder verlängern, aber in absehbarer Zukunft sieht man sich bei 1&1 sehr gut aufgestellt.

Überraschend stellte sich mit der Migration auf den Data Quality Server noch ein weiteres positives Ergebnis ein: Auch die Suchgenauigkeit konnte signifikant verbessert werden. Gegenüber vorher werden heute in jedem Suchlauf rund 100.000 Dubletten mehr gefunden. »Zu verdanken ist dieser Gewinn den patentierten probalistischen Verfahren FACT und Worldmatch sowie der Möglichkeit, per Customizing eigene Dublettenprofile bei Firmen- und Privatadressen und Definitionen von eigenen Ähnlichkeiten im Data Quality Server zu hinterlegen«, so Wolfram Bosman, Principal Presales Consultant bei Omikron.

CPU-Parallelisierung und In-Memory-Technologie treiben die Suche zur Höchstform. Was hat den enormen Performance-Boost ermöglicht? Mehrere Faktoren spielen hinein: Einerseits ist der Umstand zu nennen, dass der Data Quality Server (im Gegensatz zur Desktop-Lösung Adress Center) seine Arbeit auf mehrere CPUs parallelisieren kann und der Abgleichprozess nun von einer kompletten Serverlandschaft unterstützt wird. Auch die optimierte Anbindung des Data Quality Servers an die Systeme des Internet- und Telekommunikationsanbieters für den Stammdatentransfer zwischen den Systemen führten zu einer Beschleunigung. Doch den entscheidenden Performance-Kick brachte die Anwendung der In-Memory-Technologie, die den Arbeitsspeicher als Datenspeicher nutzt. »Da nahezu alle Abgleichprozesse In-Memory abgebildet werden, ist eine hohe Performance auch bei der Verarbeitung von Massendaten garantiert«, erläutert Torsten Etter, bei Omikron Leiter Professional Services und Projektverantwortlicher.

Data Quality Server soll auf alle internationalen Märkte ausgerollt werden. Da die Zielvorgaben klar erfüllt wurden und das Projekt innerhalb des Budgetrahmens weit schneller als geplant abgeschlossen werden konnte, ist man im TGM-Team hochzufrieden. Omikron habe sich als sehr kompetenter, zuverlässiger und verlässlicher Partner erwiesen, man könne nur Gutes berichten. Die exzellenten Erfahrungen geben Auftrieb für die kommenden Aufgaben, denn der Data Quality Server soll auch international zum Einsatz kommen. Den Anfang macht gegenwärtig der US-amerikanische Markt, wo 1&1 international die meisten Kunden betreut und ebenfalls Dublettenprobleme beklagt. Das Projekt für den UK-Markt ist ebenfalls für 2015 terminiert. Da Stammdaten in anderen Ländern nach anderen Standards strukturiert sind, müssen in der Softwarelösung die Customizing-Einstellungen für den Prüfprozess entsprechend konfiguriert werden. Diese Anpassungen lassen sich jedoch mit überschaubarem Aufwand umsetzen. Jeder Markt hat seine speziellen Herausforderungen, was Adressbestandteile und -struktur, aber auch die Adressqualität angeht. Langfristig soll der Data Quality Server weltweit auf alle Märkte ausgerollt werden, in denen das Unternehmen aus dem Westerwald tätig ist. Die sehr guten Erfahrungen mit den deutschen Kundenstammdaten zeigen, dass dies absolut zielführend ist.

Dass der Data Quality Server eines Tages schon am Anfang der Prozesskette als »Online«-Datenqualitätsprüfung auf einer konsolidierten operativen Gesamtkundendatenbank zum Einsatz kommen könnte, schließt man angesichts der ungebremsten Wachstumsdynamik bei 1&1 nicht aus. Allerdings müsste man angesichts der Firmengröße und der heterogenen Systemlandschaft bei einer solchen Umstellung ein extrem großes Rad drehen. Mit der jetzigen Lösung sei man zunächst einmal sehr gut aufgestellt, heißt es von Seiten 1&1.


Gerhard Großjohann, freier Journalist aus Steinhagen in Westfalen
www.omikron.net