Von einfachen Data Catalogs zu intelligenten Systemen<br>

Von einfachen Data Catalogs zu intelligenten Systemen

12.02.2021, Autor: Michael Herrmann

Digitale Transformation steht und fällt mit sinnvollem Datenmanagement. Die Aufgaben werden hier 2021 größer und komplexer, Defizite rächen sich stärker. Eine Konsequenz daraus: Klassische Data Catalogs werden zunehmend zu intelligenteren Systemen weiterentwickelt.

Klassische Datenkataloge sind oft statische Glossare im Sinne von Datenbankfeldern, die als Liste im Browser oder in Excel vorgehalten werden. Oder es sind – getrieben von der IT-Abteilung – Lifecycle-Softwaresysteme im Einsatz, die dazu dienen sollen, Änderungen im Deployment-Prozess festzuhalten. Das Prinzip dahinter: starre Formulare für definierte Nutzerkreise. Selbst vereinzelte Data-Governance-Projekte haben nicht durchweg zu einer unternehmensweiten Verbreitung von Datenkatalogen geführt. 

Neben dieser technologischen Komponente gibt es noch eine menschliche. Das reale Fachwissen steckte bisher vorwiegend in den Köpfen langjähriger Mitarbeiter und wurde – wenn überhaupt – mündlich an jüngere Kollegen weitergegeben. Oder es konzentrierte sich auf einen einzelnen Experten im Business Intelligence Competency Center (BICC), der Ad-hoc-Anfragen aus dem Fachbereich mithilfe komplexer Queries beantwortete. 

Heute in der (Post-)Big-Data-Ära stellt eine Inventarisierung der Daten und ihre Nutzung eine noch größere Herausforderung dar. Denn zum einen liegen Daten in großer Vielfalt und Menge vor, befinden sich an verschiedensten Orten, sind volatil und teilweise unstrukturiert. Zum anderen gilt es, sich vom Ansatz des Data Warehouse (DWH) und der individuellen Datenverarbeitung (IDV) wegzubewegen, hin zum geregelten Data Lake. Umso wichtiger ist es daher, die richtigen (und korrekten) Daten bereitzustellen und ihre Nutzung zu unterstützen. 

Ein Mensch allein kann diese redaktionelle und dokumentarische Arbeit allerdings nicht (mehr) leisten. Die Lösung: Intelligente Data Catalogs, die die Grundlage für ein stringentes Management aller Ressourcen und für tiefgehende Analysen von Dateninhalten, -beziehungen und -qualität bilden.


Von traditionellen Data Catalogues zu intelligenten Systemen

Ein Grundproblem bei der Einführung und Nutzung solcher intelligenter Systeme liegt darin, dass die erforderliche Integrationstiefe nicht selten auf Insellösungen stößt. Entweder liegt der Data Catalog in einem von vielen möglichen Systemen (beispielsweise Microsoft Azure, SAP, Microsoft Teams). Dann ist er vor allem für diese bestimmte Softwareumgebung konzipiert. Oder es handelt sich um ein externes Zusatztool, das wenige Anwender zwar zur Recherche nutzen, aber nicht als obligatorischen Bestandteil eines einheitlichen Datenmanagements begreifen – und einsetzen. Es entsteht ein Datensilo mit den typischen Merkmalen: veraltete, uneinheitliche, nicht verknüpfte Daten. Diese Art von Data Catalog wird keine Relevanz erlangen, weil er von den Mitarbeitern nicht unterstützt wird.


Sicher und zugänglich für alle

Ziel ist es also, ein Metadatensystem zu schaffen, das für sämtliche Mitarbeiter zugänglich und einfach nutzbar ist, gleichzeitig aber höchsten Ansprüchen an die Datensicherheit standhält. Um eine weitestgehende Akzeptanz der Nutzer zu erreichen, sollte eine hohe Qualität der Informationen sichergestellt und die Anwendung intuitiv sein. Und man muss den Anwender wirklich involvieren. Die Voraussetzung dafür lässt sich mit der Möglichkeit zur Kollaboration schaffen – allerdings in kontrolliertem Rahmen. Einzelne Mitarbeiter können die vorhandenen Daten mit ihren Erkenntnissen anreichern, ohne einer Willkür im Sinne von „jeder gibt seinen Senf dazu“ Tür und Tor zu öffnen, die der Datenqualität schaden würde.

Doch wie lässt sich eine hohe Datenqualität sicherstellen? Durch regelmäßige automatisierte Einblicke in die Dateninhalte, die mit vorher definierten Metriken abgeglichen werden (Data Quality Profiling). Darüber hinaus dienen insbesondere Verfahren der Analytik und der künstlichen Intelligenz (KI) dazu, „gute“ Daten zu markieren und im Suchergebnis entsprechend höher zu bewerten. Diese Methoden helfen auch dabei, Inhalte zu klassifizieren und zu verschlagworten. Und last but not least sorgen Analytics und KI dafür, dass die EU-Datenschutz-Grundverordnung (DSGVO) eingehalten wird, indem potenziell kritische Inhalte mit Warnhinweisen versehen werden.

Dazu muss die Frage nach der Nutzung der dahinterliegenden Datenobjekte gestellt werden. Denn was viele Anwender dauerhaft nutzen, ist mit hoher Wahrscheinlichkeit relevant und datenschutzrechtlich einwandfrei. Es muss also eine Verbindung zur Datenaufbereitung hergestellt werden. Ein klassisches (statisches) Glossar leistet dies nicht, die Art der Datennutzung fließt dort nicht mit ein.


Open Source: Beliebt, aber nicht immer sinnvoll

Um einen Vendor-Lock-in zu vermeiden, entscheiden sich Unternehmen für Open Source bei Schnittstellen und Speicherung. Ein Beispiel ist Egeria, ein Best-of-Breed-Start-up in der Open-Source-Welt, das sich gerade recht großer Beliebtheit erfreut. Dabei ergibt sich jedoch ein Risiko: Wenn der Datenkatalog nach Jahren endlich im Unternehmen etabliert ist, existieren Open-Source-Lösung oder -hersteller womöglich gar nicht mehr. Anbietersicherheit ist bei einer so andauernden und übergreifenden Aufgabe wie der Sicherung eines konsistenten Datenmanagements nicht zu unterschätzen.


Fazit:

Um maximalen Wert aus ihrer Datenanalyse zu ziehen, müssen Unternehmen für eine durchgängig hohe Datenqualität sorgen. Das geht nur über ein konsistentes Datenmanagement, das Data Governance mittels intelligenter Data Catalogs abbildet. Sinnvoll ist eine umfassende Plattform, die Datenintegration und -zugriff, Datenqualität, Datenaufbereitung und Data Governance verknüpft und zentral steuert. Und die die Zusammenarbeit von IT und Fachbereichen unterstützt. So lässt sich wertvolles Fachwissen mit Datenkenntnis zusammenbringen und im gesamten Unternehmen bereitstellen, was die Grundlage ist, um aus Rohinformationen wertvolle Geschäftspotenziale zu erschließen.

Intelligente Data Catalogs bilden die Grundlage für ein stringentes Management aller Datenressourcen