Sechs Dimensionen der Datenqualität – Wie Daten­qualität Daten­integrität schafft

Datenintegrität ist definiert als ein Datensatz mit Genauigkeit, Konsistenz und Kontext für eine faktenbasierte Entscheidungsfindung. Das Erreichen von tatsächlicher Datenintegrität benötigt technische Fähigkeiten wie Datenintegration, Datenqualitätsmanagement, Datenanreicherung und Location Intelligence. Zusammen garantieren diese Fähigkeiten, dass Daten ein vollständiges und genaues Bild der Realität zeichnen.

Datenintegration bricht Silos auf und stellt sicher, dass Datensätze unternehmensweit effektiv miteinander arbeiten und ihre maximale Wertigkeit entfalten können. Datenqualität gewährleistet die Vollständigkeit, Konsistenz, Genauigkeit und schnelle Verfügbarkeit der Informationen und deren volle Konformität mit den Geschäftsregeln. Datenanreicherung sorgt für einen umfassenden Blick, indem »tote Winkel« innerhalb von Unternehmensdaten eliminiert werden. Location Intelligence fügt eine gänzlich neue Dimension an raumbezogenen Informationen hinzu und vervollständigt so die Datenanreicherung.

Wenn Daten als grundlegender Wettbewerbsvorteil im Fokus stehen, müssen Unternehmen ihr Augenmerk auf alle technischen Fähigkeiten legen, Datenintegrität herzustellen. Dieser Artikel befasst sich speziell mit Datenqualität, untersucht diese genauer und erklärt, wie sie ihren Teil zum Gesamtbild der Datenintegrität beiträgt.

Folgende Rolle spielen die sechs Dimensionen der Datenqualität:

1. Vollständigkeit

Die Vollständigkeit von Datensätzen meint, dass alle benötigten Informationen vorhanden sind. Es impliziert nicht notwendigerweise, dass jede Aufzeichnung einen Wert für jedes mögliche Feld hat, sondern dass alle benötigten Informationen vorhanden sind. In einem typischen Kundendatensatz, der sich auf eine Person bezieht, sind beispielsweise Vor- und Nachname für gewöhnlich Pflichtfelder. Dem gegenüber stehen mittlere Initialen und eventuelle Prä- oder Suffixe, welche optional sind. 

Um zu illustrieren, wie wichtig Vollständigkeit ist, stellen Sie sich Versand und Auslieferung vor: Wenn eine Adresse oder Postleitzahl fehlt, können Post- oder Werbesendungen nie die angedachte Adresse erreichen. Versandunternehmen verlangen vielmals Gebühren, wenn diese Informationen fehlen. Wenn diese Gebühren um ein Vielfaches multipliziert werden aufgrund unvollständiger oder falscher Adressen, kann sich das zu einem beträchtlichen Kostenfaktor summieren. 

Vollständigkeit kann sogar eine noch größere Notwendigkeit für Bereiche wie Warenbestände und damit verbundene Kosten sowie Verkaufspreise haben. In diesen Fällen können fehlende Informationen zu einer falschen Inventur führen, beziehungsweise das Inventar falsch bewertet werden. Dies kann ebenfalls für bestimmte Waren oder Dienstleistungen zu falschen Transaktionen führen.

2. Konsistenz

Konsistenz bezieht sich auf den Grad, bis zu welchem bestehende Datensätze über mehrere Systeme hinweg synchronisiert sind. Was passiert, wenn ein Unternehmen Kundeninformationen in mehreren Systemen hinterlegt hat? Nehmen wir beispielsweise ein Krankenhaussystem, welches die Rechnungsstellung an einen Drittanbieter auslagert, Patientendaten innerhalb seines elektronischen Aufzeichnungssystems ablegt und regelmäßig Informationsmaterialien an alle Patienten aussendet. 

Wenn ein Patient das Krankenhaus benachrichtigt, dass seine Adresse sich geändert hat, dann muss diese Information in allen drei (und möglicherweise noch mehr) Systemen repliziert werden, damit jeder Bereich weiterhin effektiv mit dem Patienten kommunizieren kann. Sollten in den Daten Inkonsistenzen auftauchen, so ist es wichtig, Systeme an der Hand zu haben, welche diese Diskrepanzen entdecken und beheben. Dies geschieht entweder durch den Gebrauch von automatisierten Geschäftsregeln oder durch den Einsatz menschlicher Intervention, um Fehler zu beheben. 

3. Validität

Daten müssen auch vorab definierten Regeln entsprechen, die ihre Validität vorgeben. In den USA und Kanada müssen beispielweise Telefonnummern eine 10-stellige numerische Abfolge sein. Außerhalb Nordamerikas mag dies nicht immer der Fall sein. In China können Rufnummern 10 oder 11 Stellen haben, in Kenia sind alle Telefonnummern 9-stellig. 

Ausgehend von einer Datenbank, welche die Landesvorwahlen mit jedem Kundeneintrag verknüpft (z.B. »+1« für die USA und Kanada, »+86« für China oder »+49« für Deutschland), sollten Sie in der Lage sein, das Format der möglichen Werte im Rufnummernfeld festzulegen. Wenn ein Kunde in Toronto, Kanada, beheimatet ist und die Landesvorwahl »+1« hat, dann sollte seine Telefonnummer unveränderlich 10-stellig sein. Alles andere deutet auf einen Eintrag hin, der nicht mit den Geschäftsregeln übereinstimmt.

4. Genauigkeit

Genauigkeit ist eines der Konzepte in dieser Liste, die am einfachsten zu verstehen sind. Einfach ausgedrückt bezieht es sich darauf, ob eine spezifische Information der Wahrheit entspricht oder nicht. Wenn die Daten aufzeigen, dass eine Firma im letzten Quartal 20.000 Produkte verkauft hat, es tatsächlich aber 22.000 waren, dann gibt es ein Problem mit der Genauigkeit.

Sehr häufig kann man Genauigkeitsprobleme erkennen, indem Parameter etabliert werden, die erwarteten Werten entsprechen. Wenn eine Datenbank mit medizinischen Einträgen die Größe eines Patienten mit 18,2 Meter angibt, dann kann davon ausgegangen werden, dass mit ziemlicher Sicherheit ein Fehler bei der Genauigkeit dieses Eintrags vorliegt. Sehr wahrscheinlich ist die Größe des Patienten 1,82 Meter und es wurde lediglich falsch eingetragen. Wenn Geschäftsregeln etabliert werden, um solche Anomalien zu erkennen, können Unternehmen die Genauigkeit ihrer Daten verbessern.

5. Aktualität

In der schnelllebigen heutigen Geschäftswelt ist die Aktualität von Informationen wichtiger denn jemals zuvor. Aktualität ist eng verbunden mit Integration innerhalb des größeren Kontextes der Datenintegrität (wie einige andere Punkte auf dieser Liste auch). Wenn ein Unternehmen auf Datenintegration im Batch-Modus setzt, mit täglichen oder wöchentlichen Update-Terminen, können Informationen zu spät verfügbar werden.

Führungskräfte benötigen akkurate, aktuelle Informationen. Daten werden zunehmend die Quelle für Wettbewerbsvorteile innovativer Firmen, weil sie die Erkenntnisse beschleunigen, welche die Basis für effektive und rechtzeitig getroffene Geschäftsentscheidungen sind. In manchen Fällen können Daten, die zu spät verfügbar sind, nutzlos werden. 

6. Einzigartigkeit

Eines der Probleme, die CRM-Systeme weltweit haben, ist die Existenz von Dubletten. Wenn »Shawn Smith«, »Sean Smith« und »Sean A. Smith« als einzelne Kunden gelistet werden, jedoch die gleiche Anschrift besitzen, ist die Wahrscheinlichkeit hoch, dass es sich hierbei um dieselbe Person handelt.

Auch bei Firmennamen kann es zu Doppelerfassungen kommen. Abkürzungen oder Variationen solcher Namen können in doppelten Aufzeichnungen münden. Dies passiert häufig mit Namen von Holdings oder geläufigen Namen von Firmen, die von der offiziellen Namensgebung abweichen. Für einen Vertriebsleiter, der einen Quartalsbericht liest, können doppelte Datensätze ein echtes Problem darstellen, weil erwartete Verkaufszahlen möglicherweise schnell größer angegeben werden, ohne dass jemand den Fehler bemerkt, bis es bereits zu spät ist. Gleiches gilt für Marketing-Abteilungen, wenn irrtümlicherweise Budget für den mehrmaligen Versand von Marketingmaterialien an ein und dieselbe Person verschwendet wird. 

Diese sechs Dimensionen der Datenqualität spielen eine kritische Rolle im weitreichenderen Gesamtkontext der Datenintegrität. Datenqualität ist untrennbar verbunden mit den drei anderen Disziplinen, auf denen Datenintegrität beruht: Datenintegration, Datenanreicherung und Location Intelligence.

 


Tim van Baars,
Vice President – Central EMEA
bei Precisely

 

 

Illustration: © ioat/shutterstock.com