Für viele Unternehmen ist Datenqualität ein zentrales Thema und bedeutet eine große Herausforderung. In diesem Artikel stellen wir Ihnen typische Erfahrungen und Best Practices für Ihre Datenqualitätsinitiativen vor.
Datenqualität ist eine der zentralen Herausforderungen für daten-getriebene Unternehmen
Studien haben herausgefunden, dass 41% der Unternehmen inkonsistente Daten aus verschiedenen Systemen als eine ihrer größten Herausforderungen ansehen. Es werden immer mehr Daten generiert und jeder möchte den Wert dieser Daten voll ausschöpfen. Doch wenn die Qualität der Daten vernachlässigt wird, ist eine sinnvolle Nutzung schwer möglich. Gescheiterte oder verworfene Analytics- und Data Science-Projekte sind ebenso häufige Folgen wie nicht-optimale Management-Entscheidungen. Die Verwendung von Daten schlechter Qualität kann enorme finanzielle Schäden verursachen. In Vertriebs- und Marketingabteilungen entstehen z.B. Verluste von 10.000 €/Jahr und viele hundert Stunden verschwendeter Arbeitszeit. Oftmals können die Umsatzverluste bis zu 20% betragen. Vorausschauend gedacht, ist bei allen modernen Technologien wie KI, Automatisierung und IoT (in welche nahezu alle Unternehmen investieren) eine hohe Datenqualität essentiell.
Was macht Datenqualität zu solch einer komplexen Herausforderung?
Kaum ein Datenthema berührt so viele Geschäftsbereiche wie die Datenqualität. Sie ist überall dort relevant, wo Daten produziert und genutzt werden: sei es in der Produktion, im Marketing, in der IT oder in der Geschäftsstrategie. Daraus resultiert auch ein zentrales Learning bezüglich Datenqualitätsinitiativen: Überall und am besten sofort ist keine gute Strategie. Ebenso wie große Projekte, z.B. Migrationen, sollte auch eine Datenqualitätsinitiative sauber geplant und technologisch, sowie vom Management gut unterstützt sein.
Wie kann ein Unternehmen nun also die Datenqualität konkret verbessern? Schon die Ermittlung des Status Quo scheint eine zeitaufwändige Aufgabe zu sein, ebenso die anschließende Problemanalyse und -behebung.
Das “Projekt” Datenqualitätsinitiative
Grundsätzlich ist der typische Ablauf einer Datenqualitätsinitiative anderen Data-Projekten sehr ähnlich. Begonnen wird mit der Definition des Rahmens - in diesem Fall der Wahl einer geeigneten Abteilung oder eines Bereiches für die Pionierarbeit. Der nächste Schritt ist die Projektinitiierung (erfahrungsgemäß ein sehr kritischer Schritt), gefolgt von der Projektdurchführung und der nachhaltigen Prozessetablierung. Was in den einzelnen Phasen zu beachten ist, lesen Sie bei den folgenden Best practices.
Best practices für die Initiative
Schritt 1: Identifikation eines guten Startpunktes
Ein guter Startpunkt für DQ-Initiativen sind Bereiche im Unternehmen, in denen Daten sehr wertvoll sind und einen großen Einfluss haben. In der Regel sind dies Systeme & Datenquellen, die am Anfang der Datenreise stehen, z.B. CRM-Systeme, wo ein Kunde zum ersten Mal registriert wird. Hilfreiche Fragen, um den richtigen Startpunkte zu identifizieren, sind:
- Wo werden Daten in einem hohen manuellen Grad erzeugt?
- Welche Daten sind über viele Systeme und Abteilungen verstreut?
- In welchem Bereich sehen wir ein hohes Risiko, wenn Daten falsch / von schlechter Qualität sind (z.B. Produktionssysteme, Verpackungen bei Lebensmittelunternehmen)?
Schritt 2: Bestandsaufnahme des gesamten Projektrahmens
Im nächsten Schritt empfehlen wir, Transparenz über Daten und Prozesse in dem Bereich Ihrer Wahl zu gewinnen. Für diese end-to-end-Analyse ist es entscheidend, Beteiligte aus der gesamten Prozesskette an Bord zu holen, von der Datenerzeugung über die Verarbeitung bis hin zum Nutzer. Für solche Auswertungen, insbesondere der Untersuchung von Datenflüssen und Zusammenhängen, kann es hilfreich sein, spezielle Tools zu verwenden. Betrachten Sie in an dieser Stelle auch die reale Umsetzung und menschlichen Gegebenheiten, z.B. die Kommunikation zwischen verschiedenen Teams.
Schritt 3: Analyse des ersten Datenpaketes
Nun wählen Sie eine sinnvolle Menge spezifischer Dateneinträge aus und identifizieren Sie die relevanten Attribute zu diesen Daten. So könnte beispielsweise der Zieldatensatz eine Tabelle voller Kundendaten sein. Relevante Attribute hier können Name, Telefonnummer, Geschlecht, Status sein. Wir raten davon ab, sämtliche Attribute auszuwählen, da dies nur zusätzlichen Aufwand bedeutet, der am Ende keinen Mehrwert bringt. Falls sich die Definition der relevanten Attribute als herausfordernd darstellt, lohnt sich häufig ein Blick auf die Datenflüsse: Welche Daten werden am Ende vom Nutzer verwendet?
Schritt 4: Priorisierung der gefundenen Datenqualitätsprobleme
Im nächsten Schritt gehen Sie die ausgewählte Menge an Einträgen durch und identifizieren alle Fehler. Identifizieren Sie die drei bis fünf Attribute, auf keinen zu viele, mit der höchsten Fehleranzahl. Im Anschluss priorisieren Sie diese hinsichtlich der geschätzten Auswirkung und des Risikos. Um das vorhin genannte Beispiel der Kundendaten wieder aufzugreifen: Ein fehlender Name macht eine korrekte Kontaktierung unmöglich. Falls das Geschlecht und so die Anrede nicht stimmt, kann das zu einem schlechteren Eindruck führen, ist aber nicht unbedingt ein K.O.-Kriterium für weitere Einkäufe.
Schritt 5: Definition der zukünftigen Maßnahmen
Zum Schluss geht es an die Kernaufgabe. Jetzt müssen Maßnahmen definiert werden um a) die Daten zu korrigieren und b) zukünftige Fehler zu vermeiden. Das könnte zum Beispiel durch automatische Prüfungen bei der Erstellung der Daten erfolgen oder durch die Einführung von Monitoring. An dieser Stelle ist es ratsam, die zukünftigen Maßnahmen mit der gesamten Datenstrategie und eventuell geplanten Innovationen, z.B. Cloudmigrationen, abzustimmen.
Tipp: Ein Datenkatalog als Unterstützung
Historisch gewachsene Datenarchitekturen voller verteilter Datenquellen und Wissenssilos sind typische große Hürden bei solchen Initiativen.
Datenkataloge bieten einen ganzheitlichen Ansatz, um diese Herausforderungen zu meistern. Durch die Schaffung von Transparenz über alle vorhandenen Datensätze, deren Ablageort, Zuständigkeiten und Herkunft (Data Lineage), erhält das Unternehmen einen ganzheitlichen Überblick.
Darauf aufbauend bieten fortgeschrittene Datenkataloge mit Data Profiling-Funktion den Verantwortlichen die Möglichkeit, schnell zu erkennen, wo Probleme auftreten. Durch die hinterlegten Zuständigkeiten kann die richtige Person kontaktiert werden. Darüber hinaus können aus den inventarisierten Metadaten Rückschlüsse auf die Ursachen von Problemen gezogen werden. Die Datenhistorie zeigt zudem, wo die Datensätze außerdem verwendet werden. In diesem Fall können z.B. kritische Analysen noch rechtzeitig korrigiert werden.
Da ständig neue Daten generiert, und vor allem immer mehr Datenströme und -quellen angezapft werden, ist es unerlässlich, eine robuste Infrastruktur aufzubauen. Diese stellt sicher, dass die Datenqualität in Bezug auf Genauigkeit, Vollständigkeit, Konsistenz, Aktualität, Gültigkeit und Eindeutigkeit für alle zukünftigen Initiativen gewährleistet ist. Die Investition in einen Datenkatalog zur Verbesserung der unternehmensweiten Datenqualität zahlt sich sehr schnell aus.
So rechnen Sie eine Business Case für Datenqualitätsinitiativen
Ein einfaches Beispiel dafür, wie viel Geld Sie Datenqualität kosten kann, finden Sie im Marketingbereich:
Nehmen wir an, Sie erfassen Ihre Kunden als B2C-Unternehmen in Ihrem CRM, aber es ist nicht erforderlich, für jeden Kunden eine gültige E-Mail-Adresse anzugeben (keine Prüfung, kein Pflichtfeld). Das Unternehmen gewinnt 20.000 neue Kunden pro Jahr, 90% der E-Mail-Adressen werden eingegeben. Etwa 5% davon werden falsch sein, da es keinen Prüfmechanismus gibt. Das führt zu 86% gültiger E-Mail-Adressen, die die Marketingabteilung verwenden kann. In diesem Beispiel treten zwei Arten von Problemen auf:
a) es fehlen relevante Daten in wichtigen Feldern
b) die eingegebenen Daten in diesem Feld sind nicht gültig
Beides sind Datenqualitätsprobleme, die jetzt 15% des potenziellen Ertrags einer Marketingkampagne (z.B. einer Upselling-Kampagne) kosten, da diese Kunden nicht erreichbar sind. Studien zeigen außerdem, dass der Grad der Datenqualität direkt mit einem erhöhten Prozessaufwand korreliert.
Datenqualitätsinitiativen lohnen sich
Neben den rein quantitativen Vorteilen bieten die gesteigerte Datenqualität und der etablierte Datenkatalog eine optimale Grundlage für die Transformation zu einem datengetriebenen Unternehmen. Alle Mitarbeiter können sich auf korrekte Daten verlassen, die ihnen an einer zentralen Stelle zur Verfügung stehen. Beide Punkte sind für Datendemokratisierung unerlässlich.
Zusammenfassend lässt sich sagen, dass eine Datenqualitätsinitiative ein sehr individueller Prozess ist. Der beste Startpunkt variiert je nach Unternehmensaktivität und bestehenden Prozessen, kann aber durch die Beantwortung der oben genannten Fragen identifiziert werden. Bewährte Schritte für die Projektdurchführung sind:
1) Transparenz gewinnen
2) Zieldateneinträge auswählen
3) Attributidentifikation
4) Fehleridentifikation in einer Teilmenge und Priorisierung
5) Maßnahmen ergreifen
Datenkataloge können ein mächtiges Werkzeug sein, um eine nachhaltige Datenqualität in der gesamten Datenarchitektur sicherzustellen.