1. Wie Sie sämtliche Daten erkundbar machen
Am Beginn jeder Datenanalyse steht die Datenexploration. Ein passender Datenkatalog erlaubt Datenexperten, alle verfügbaren Assets und Datenstrukturen sekundenschnell zu durchsuchen. Eine Features und Funktionen sind besonders relevant für die Datenerkundung.
Dabei ist ein Datenkatalog mit hohem Automatisierungsgrad ein Schlüssel zu langfristigem Erfolg! Daten müssen immer auf dem neuesten Stand bleiben – und zwar ohne enormen manuellen Aufwand. Analysten können durch einen automatisch synchronisierten Katalog außerdem jederzeit herausfinden, ob die Daten aktuell und somit geeignet sind für die jeweilige Fragestellung.
Neben einer klaren Dokumentation und Verfügbarkeit von geschäftlichen Kontext ist eine leistungsstarke Suche eines der relevantesten Features. Sie bildet die Grundlage, benötigte Daten effizient zu finden. Wenn verschiedene Nutzergruppen den Katalog verwenden, sind vielfältige Filter- und Sortierfunktionen in der Praxis sehr hilfreich. Grundsätzlich sollte ein Katalog mit seinen Features immer auf die tatsächliche Nutzergruppe zugeschnitten sein und nicht auf “ideale” oder “wünschenswerte” Nutzer.
2. Was es für eine effiziente Datenanalyse bedarf
Nachdem Daten erfolgreich gefunden wurden, sind zwei Schritte essentiell für erfolgreiche Analysen: Schnell ein gutes Datenverständnis zu entwickeln und die richtigen Tools für die Analysen zur Verfügung zu haben.
Ein Datenverständnis entwickeln
Ein Datenkatalog mit seinem Businessglossar und Dokumentationen unterstützt dabei, ein fachliches Verständnis zu erlangen. Data-Profiling-Tools und -funktionen dagegen erlauben Datenexperten, schnell einen guten ersten Eindruck der Datencharakteristika zu gewinnen. Statistiken, reale Datenverteilungen und Eigenschaften des Datensatzes sind dabei nützliche Informationen, ebenso auch Beispielwerte. Hier ist Great Expectations ein Open-Source-Profiling-Tool, das sich bei unseren Projekten bewährt hat.
Die richtigen Tools für Ihre Use-Cases
Die direkte Verbindung der Datenquelle, des Datenkatalogs und dem Anwendungstools (z.B. BI-Tools) ist sehr hilfreich für Datenanalysten. Mit modernen Tools und sauber aufgesetzten APIs ermöglichen Sie Ihren Experten so jederzeit schnelle Absprünge zwischen Tools und somit effizientes Arbeiten. Ein Tipp für die Umsetzung ist, im Datenkatalog nicht nur eine Übersicht über Daten, sondern auch über verfügbare Tools zu hinterlegen.
3. Wie Daten unkompliziert kuratiert werden können
Nachdem Daten für einen Anwendungsfall erfolgreich und schnell identifiziert und analysiert wurden, folgten typische Schritte der Datenaufbereitung: Bereinigung, Anreicherung und Kombination mit anderen Daten. Eine optimale Möglichkeit, die gegebenen Daten weiter zu verarbeiten, bietet SQL. Mit SQL lassen sich aus vielfältigen Settings Daten flexibel aus verschiedenen Quellen abfragen. Vergessen Sie an dieser Stelle allerdings nicht die Data Governance! Es gibt verschiedene Governance-Tools, die beim Managen von Zugriffsregelungen unterstützen.
In unseren Projekten war für eine effiziente Datenkuration häufig von zentraler Bedeutung, allen Mitarbeitern die für Ihren Fall geeignetsten Tools zur Verfügung zu stellen (wie bereits unter 2. empfohlen). Mit der Kombination aus Datenkatalog und flexiblen Schnittstellen lassen sich Flexibilität und Transparenz im Realbetrieb vereinen.
4. Daten teilen
Um einen von Anfang bis Ende effizienten Datenanalyseprozess zu ermöglichen, müssen neu erstellte Datensätze mit Kolleg*Innen und den Fachbereichen unkompliziert geteilt werden können. Gleiches gilt natürlich auch für gewonnene Einsichten in jeglicher anderen Form, z.B. Reports, Notebooks und Modelle. In einem modernen Datastack ist häufig die beste Lösung, kreierte Abfragen direkt in der gewünschten verbundenen Datenquelle (z.B. dem Mart eines Cloud-Datawarehouses) zu speichern. Über einen Datenkatalog stehen sie jedem autorisierten Nutzer dadurch direkt zur Verfügung. So können zum Beispiel BI-Abteilungen zentral mit aufbereiteten Datensätzen für Auswertungen versorgt werden, ohne dass Datensilos entstehen.