Datenbereinigung: Schritt für Schritt zum Erfolg

Die Datenqualität spielt im digitalen Zeitalter eine zentrale Rolle. Für Unternehmen erschließt sich der wirkliche Wert ihrer Daten erst dann, wenn diese vollständig und korrekt sind. Doch viele Firmen nehmen eine Datenbereinigung erst in Angriff, wenn eine größere Systemumstellung – etwa eine Migration in die Cloud oder zu SAP S/4HANA – ansteht. Dabei lohnt es sich, vorausschauend zu handeln. Denn die systematische Datenbereinigung braucht ihre Zeit. Und sind die Prozesse für eine umfassende Datenqualitätssicherung erst einmal implementiert, dann reduziert sich die Komplexität anschließender Datenmigrationsprojekten deutlich.

Laut Gartner überschreitet etwa die Hälfte aller Datenmigrationsprojekte derzeit das geplante Budget oder den geplanten Zeitrahmen, mit entsprechenden negativen Folgen für das betroffene Unternehmen. Die Ursachen können vielfältig sein, aber mit Sicherheit spielt die Qualität der zu migrierenden Daten eine tragende Rolle. Zudem unterschätzen viele Firmen zunächst den Aufwand und die Komplexität eines Data Cleansing-Projekts.

Fehlerhafte oder nicht vorhandene Daten können während und nach einer Migration aber massive Probleme bereiten und Fehlermeldungen in den neuen Anwendungen verursachen, im Extremfall die Anwendungen sogar zum Absturz bringen. Während der Migration auftretende Datenprobleme manuell zu finden und zu beseitigen ist nicht nur zeitraubend, sondern auch teuer. Deshalb sollte die Datenqualitätvon Anfang an im Vordergrund stehen und ein gut strukturiertes Vorgehen für die Datenbereinigung geplant sein.

Die Datenqualität definieren

Zu Beginn eines Datenbereinigungsprojekts müssen zunächst die Datenqualitätsziele festgelegt werden. Dabei sollte sich ein Unternehmen unter anderem folgende Fragen stellen: Welche Daten sind für die einzelnen Geschäftsprozesse jeweils wesentlich? Woher stammen diese Daten, und wer greift wann und wie oft auf sie zu? Welche Daten benötigen wir in Zukunft, um effizienter zu arbeiten und unsere strategischen und operativen Ziele besser zu erreichen? Welchen Mindestanforderungen müssen sie zu diesem Zweck genügen? Wie können wir also die vorhandenen Daten verbessern oder ergänzen?

Etablierte Best Practices vergleichbarer Unternehmen, Compliance-Anforderungen sowie Branchenstandards geben bei diesen Entscheidungen eine gute Orientierungshilfe. Daneben ist die Datenqualität oft auch eine Schnittstellenfrage, wenn Daten etwa zwischen Systemen und Unternehmensbereichen, mit Lieferanten oder Kunden ausgetauscht werden sollen.

Um das Datenqualitätslevel zu beschreiben, lassen sich bestimmte nützliche Kriterien heranziehen. Die niedrigste Qualitätsstufe sind dabei „technisch gültige“ Daten. Diese erfüllen nur die rein technischen Anforderungen des darunterliegenden Softwaresystems. Das heißt, sie liegen in einem verarbeitbaren Format vor, beinhalten die nötigen alphanumerischen Charakter und haben die richtige Länge.

Die zweite Stufe sind geschäftsrelevante Daten. Sie stellen alle Informationen bereit, die für die Geschäftsprozesse zwingend notwendig sind – zum Beispiel den Buchungskreis in SAP-Systemen. Sind die Datensätze außerdem konsistent, lückenlos, fehlerlos und aktuell, dann gelten Sie als ‚Business Ready’. Dubletten und inaktive Daten sind in diesem Fall bereinigt und Attribute wie etwa Adressangaben benutzen durchgehend dieselbe korrekte Schreibweise.

Genügen die Daten zudem über das gesamte Unternehmen hinweg denselben Standards, dann spricht man von abgeglichenen und harmonisierten Datensätzen. Im Idealfall sind diese Daten auch validiert und autorisiert, also mit vordefinierten Qualitätskontrollprozessen von relevanten Stakeholdern innerhalb des Unternehmens geprüft und für gut befunden. Damit erreichen sie die höchste Qualitätsstufe und bilden eine zuverlässige Basis für wichtige Unternehmensentscheidungen.

Doch bei weitem nicht der gesamte Datenbestand muss den Höchststandards genügen – Differenzierung ist hier wichtig, denn nicht jede Abteilung hat die gleichen Anforderungen an die von ihr verarbeiteten Daten. Was das Unternehmen bei der Festlegung der Datenziele nicht aus den Augen verlieren sollte, ist, dass die Daten letztendlich Mittel zum Zweck sind. Sie müssen zwar sauber und vertrauenswürdig genug sein, um Prozesse reibungslos zu ermöglichen und stichfeste und qualitativ hochwertige Entscheidungsgrundlagen zu liefern. Bei der Datenqualität Perfektion anzustreben ist aber sicher nicht sinnvoll.

Datenqualitätsprozesse automatisieren

Sind die Datenqualitätsziele festgelegt, dann folgt als nächster Schritt ein detaillierter und umfassender Datenaudit, um die bestehenden Datenprobleme, Schwächen und Lücken zu lokalisieren. Und die Entscheidung: Wer ist in Zukunft verantwortlich dafür, dass die neuen Qualitätsziele eingehalten werden? Wie kontrollieren wir die Sicherung unserer Standards? Erst anhand einer vollständigen Analyse der aktuellen Situation lässt sich die richtige Strategie für eine nachhaltige Verbesserung der Datenqualität abstecken – mit Hauptaugenmerk auf die Bereiche, in denen die positivsten Auswirkungen für das Unternehmen zu erwarten sind. Ein guter Ansatz ist, die Datenbestände in einzelne Pakete zu unterteilen und ihrer Bedeutung nach zu priorisieren.

Die anschließende Datenbereinigung selbst ist ohne professionelle Werkzeuge kaum zu bewältigen. Zum Glück gibt es umfassende Lösungen – etwa von BackOffice Associates –, mit denen sich spezifische Datenqualitätsanforderungen auch ohne technische Vorkenntnisse definieren und die dazu gehörigen Workflows samt Validierungsprozessen einfach umsetzen lassen. Diese High-End-Tools bieten flexible Features beispielsweise zur Korrektur von Datenfehlern, zur Behandlung von Ausnahmefällen und zur formellen Datenvalidierung.

Eine solche Plattform mit direkten Schnittstellen zur bestehenden Systemlandschaft ermöglicht eine weitgehend automatische, kontinuierliche und vor allem nachhaltige Qualitätssicherung auch bei wachsenden Datenmengen. Umfassende Reporting-Optionen und unmittelbare Warnmeldungen, wenn Datensätze ihre Mindestanforderungen nicht erfüllen, erlauben den ständigen Überblick über den Zustand der Daten im Unternehmen. Mangelhafte Daten können so schon lokalisiert und korrigiert werden, bevor sie Probleme verursachen. Das kontinuierliche Monitoring der Datenlandschaft ist ein wichtiger Vorteil, denn es hilft, die Datenqualität – und damit auch den Wert der Daten für das Unternehmen – langfristig zu sichern.


Frank Schuler, BackOffice Associates

 

Illustration: © alehnia/shutterstock.com

Weitere Artikel zu