Ein Datenarchitekt erklärt den Data Catalog<br>

Ein Datenarchitekt erklärt den Data Catalog

15.01.2021, Autor: Dave Wells

Die Modernisierung der Datenarchitektur ist eine der wichtigsten Herausforderungen für Unternehmen, die die Vorteile von künstlicher Intelligenz (KI) und maschinellem Lernen (ML) nutzen wollen. Die Datenarchitektur für traditionelle Business Intelligence (BI) war eigentlich recht einfach, wenn man sie mit der komplexen Architektur vergleicht, die heute erforderlich ist. Die BI-Datenarchitektur konzentrierte sich in erster Linie darauf, wie man Daten erfasst, organisiert, integriert, speichert und darauf zugreift. Die Erfassung und Integration basierte hauptsächlich auf Batch-ETL, die Organisation und Speicherung auf relationalen Konzepten und Technologien und der Zugriff auf SQL-Abfragen. Für Unternehmen, die Advanced Analytics einsetzen wollen, ist dieses einfachere Modell nicht mehr ausreichend. Stattdessen müssen sie zu einer modernen Datenarchitektur übergehen, und das erfordert einen neuen Ansatz für die Verwaltung von Metadaten. Der Enterprise Data Catalog ist dafür eine geeignete Antwort.


Die Herausforderungen für ein moderne Datenarchitektur

Eine moderne Datenarchitektur für KI/ML ist wesentlich komplexer als bei vergangenen Generationen des Datenmanagements. Die Komplexität beginnt bei den Daten selbst. KI/ML funktioniert am besten mit großen Datenmengen. Diese Daten sind aber nicht alle strukturiert, ein Großteil der Daten ist nicht SQL-basiert und manchmal nicht SQL-kompatibel. Es handelt sich nicht ausschließlich um interne Daten, die bekannt sind und sich im Einflussbereich des Unternehmens befinden. Gewünschte Anwendungsszenarien sind mit einem Einheitsschema wie einem Data Warehouse nicht zu erfüllen. Externe Daten und Big-Data-Quellen können voller Überraschungen sein. Manchmal ist die Überraschung eine inhaltliche oder organisatorische, die sich auf die Verarbeitung der Daten auswirkt. Noch bösere Überraschungen sind Datensätze, die unerwartete personenbezogene Daten (PII), Zahlungskartendaten (PCI), geschützte Gesundheitsdaten (PHI) oder andere sicherheits- und datenschutzrelevante Daten enthalten. Es gibt eine Vielzahl an Nutzern für die heutigen Datenressourcen – Data Scientists, Datenanalysten und Geschäftsanalysten – von denen viele als Self-Service-Datenkonsumenten arbeiten. Sie müssen Daten für die Analyse finden, die Daten verstehen und auf sie zugreifen können - und das alles, ohne die Privatsphäre geschützter Daten zu gefährden.


Die Anforderungen an eine moderne Datenarchitektur

Eine moderne Datenarchitektur muss skalierbar sein, um riesige Datenmengen und eine leistungsstarke Verarbeitung zu unterstützen. Sie muss anpassungsfähig und widerstandsfähig gegenüber Veränderungen der Daten, der Technologien und der Kundenbedürfnisse sein. Sie muss alle Datengeschwindigkeiten von Stream Processing bis hin zu Batch ETL unterstützen. Sie muss alle Datenarten unterstützen, von relationalen bis hin zu den vielen Variationen von unstrukturierten und halbstrukturierten Daten. Sie muss den Datenzugriff für alle Datenkonsumenten ermöglichen und gleichzeitig sensible Daten schützen. Und nichts davon ist ohne Metadaten möglich!


Die Form der modernen Datenarchitektur

Eine moderne Datenarchitektur besteht aus mehreren Komponenten, die miteinander verbunden und voneinander abhängig sind (siehe Abbildung 1).

Um alle Anforderungen an Data Analytics abzudecken, beinhaltet die Architektur Komponenten für

  • Datenquellen - Die Verbindung zu jeder benötigten Datenquelle. Zu den Quellen gehören sowohl unternehmensinterne als auch extern beschaffte Daten. Dazu gehören relational strukturierte, semi-strukturierte, multi-strukturierte und unstrukturierte Daten.
  • Ingest-Daten - Einbringen von Daten in das Analyse-Ökosystem. Ingestion umfasst sowohl Batch- als auch Echtzeit-Methoden, die von Batch-ETL bis zur Datenstromverarbeitung reichen. Skalierbarkeit und Elastizität sind wichtig, um sich den Schwankungen des Datenvolumens und der Geschwindigkeit der Daten anzupassen.
  • Datenveredlung - Organisieren von Daten in gemeinsam nutzbaren Datenspeichern wie Data Lakes, Data Warehouses und Stammdaten-/Referenzdaten-Hubs. Datenbereinigung, -integration, -aggregation und andere Arten von Datentransformationen liegen in der Verantwortung der Datenraffinerie.
  • Datenzugriff - Der Zugriff auf Daten sowohl für Menschen als auch für die Anwendungen und Algorithmen, die Daten verwenden, erfolgt auf verschiedene Weise, z. B. durch Abfragen, Datenvirtualisierung, APIs und Datendienste.
  • Datenanalyse - Die Umwandlung von Daten in Informationen und Erkenntnisse umfasst Aktivitäten, die von einfachen Berichten bis hin zu Data Science, künstlicher Intelligenz und maschinellem Lernen reichen.
  • Datenkonsum - Datenkonsum ist der Punkt, an dem Daten und Menschen eng miteinander verbunden sind. Von Informationen und Erkenntnissen zu Entscheidungen, Handlungen und Auswirkungen zu gelangen, ist der Zweck der Datennutzung.

Neben der Unterstützung in allen Phasen der Datenanalyse umfasst die Architektur auch Komponenten für das Datenmanagement - Verwaltung, Administration und Infrastruktur - sowie für das Metadatenmanagement. Ein modernes Metadatenmanagement baut idealerweise auf den Möglichkeiten eines Unternehmens-Data-Catalogs auf. Der Katalog ist ein echtes "Cross-Platform Metadata Management System", wie es in einem Blog von Claudia Imhoff beschrieben wird.

Abbildung 1: Eine moderne Datenarchitektur

Die Rolle des Data Catalogs

Metadaten sind das Bindegewebe, das alle anderen Komponenten der Architektur miteinander verbindet - das Mittel, mit dem die Aufnahme die Quellen kennt, die Verfeinerung mit der Aufnahme verbunden wird und so weiter. Jeder Teil der Architektur spielt eine Rolle bei der Erstellung von Metadaten und beim Konsumieren von Metadaten.

  • Die Datenerfassung - Beschaffung und Ingestion - ist der Punkt, an dem der Datenbestand kontinuierlich mit Metadaten aktualisiert wird und alle Daten innerhalb des Analytics-Ökosystems erfasst werden. Ein intelligenter Data Catalog umfasst KI/ML-Funktionen zum Erkennen und Extrahieren von Metadaten, wodurch der manuelle Aufwand für die Metadatenerfassung minimiert und der Grad der Vollständigkeit der Metadaten verbessert wird. Dies ist auch der Punkt, an dem Metadaten zur Datenherkunft erfasst werden und die Data-Lineage-Kette (Datenabstammung - wo kommen sie her, was ist mit ihnen geschehen?) beginnt.

  • Bei der Datenveredelung werden Metadaten über den Datenfluss durch Data Pipelines und alle Transformationen, die im Datenfluss angewendet werden, erfasst. Dies umfasst sowohl Data Pipelines, die Daten in Data Lakes und Warehouses verschieben, als auch Pipelines, die Daten für die Analyse vorbereiten. Diese Metadaten liefern Informationen zur Datenherkunft, die ein wesentliches Element vertrauenswürdiger Daten und ein wichtiges Werkzeug für die Nachverfolgung und Fehlerbehebung bei Problemen sind. Ein intelligenter Data Catalog kann auch Empfehlungen für die Datenveredelung geben, z. B. die Zusammenführung zweier Datensätze oder eine Methode zur Maskierung von datenschutzsensiblen Daten.

  • Der Datenzugriff und die Datenanalyse hängen in hohem Maße vom Data Catalog ab, da er den Analysten hilft, die benötigten Daten zu finden, sie zu verstehen, auszuwerten und zu wissen, wie sie auf die Daten zugreifen können. Metadaten verbinden außerdem den Datenzugriff mit der Data Governance, um sicherzustellen, dass Zugriffskontrollen angewendet werden. Das Sammeln von Metadaten über die Häufigkeit des Zugriffs ist nützlich für Datenbewertungsprozesse und hilft dabei, Datenexperten/Power User verschiedener Bereiche zu identifizieren.

  • Die Nutzung von Daten bietet die Möglichkeit, Metadaten darüber zu sammeln, wer welche Daten für welche Art von Anwendungsfällen und mit welchen geschäftlichen Auswirkungen nutzt. Das Wissen über Datenkonsumenten und ihre Datenabhängigkeiten ist der Kern des Datenmanagements und der datengesteuerten Kultur. Der Wert des Wissens über Datenkonsumenten für die Datenstrategie, -planung und -verwaltung sollte für jeden, der mit Daten arbeitet, offensichtlich sein.

  • Das Management von Daten - Verwaltung, Administration und Infrastrukturmanagement - hängt von der Kenntnis der Daten, der Prozesse, die Daten manipulieren, und der Verwendungszwecke und Nutzer von Daten ab. Die Verwaltung dieses Wissens als Metadaten in einem Data Catalog stellt sicher, dass die Datenverwaltungsprozesse mit den Datenanalyseprozessen verbunden sind und diese unterstützen.

Das Diagramm der modernen Datenarchitektur in Abbildung 1 zeigt den Data Catalog im Zentrum der Architektur und in Verbindung mit jeder anderen Komponente. Das ist die Rolle der Metadaten - sie erleichtern den Fluss des Datenwissens durch alle Datenmanagement- und Datennutzungsprozesse. Sie sind wirklich der Klebstoff, der die Datenarchitektur zusammenhält.


Fazit

Jeder Datenarchitekt sollte die Bedeutung von Metadaten kennen und schätzen. Jeder Datenarchitekt sollte auch die Rolle von Data Catalogs für modernes Metadatenmanagement erkennen. Kluge Datenarchitekten werden schnell zu Befürwortern und Verfechtern von Data Catalogs.

Dieser Beitrag ist zuerst in englischer Sprache hier erschienen

Dave Wells ist ein renommierter Datenmanagement-Profi, der unter anderem als Datenarchitekt, Dozent und Autor arbeitet. Als Datenarchitekt ist er beratend tätig und überprüft und definiert Frameworks und Design Patterns für die Datenmanagement-Architektur. Als Ausbilder ist er Director of Education und Dozent bei eLearningCurve. Als Analyst schreibt er Artikel und bloggt regelmäßig auf eckerson.com über Datenmanagement, Analytics und verwandte Themen. Mehr als vierzig Jahre Erfahrung mit Informationssystemen in Kombination mit über zehn Jahren Unternehmensführung geben ihm eine einzigartige Perspektive auf die Zusammenhänge zwischen Geschäft, Information, Daten und Technologie. Die Weitergabe von Wissen und der Aufbau von Fähigkeiten sind Daves Leidenschaften, die er durch Beratung, Reden, Lehren und Schreiben auslebt. Kontakt: LinkedIn