Multimodale Data Governance als Konzept für nachhaltige Analytics in datengetriebenen Unternehmen<br>

Multimodale Data Governance als Konzept für nachhaltige Analytics in datengetriebenen Unternehmen

23.11.2017, Autoren: Jacqueline Bloemen, Lars Iffert und Dr. Sebastion Derwisch

Für das digitale Unternehmen mögen Daten das neue Öl sein, aber im Gegensatz zu diesem Naturprodukt müssen Maßnahmen getroffen werden, um die Qualität von Rohdaten zu sichern und eine zielführende Aufbereitung und Veredelung im Rahmen von Digitalisierungsinitiativen sicherzustellen. Dabei bestehen je nach Datenverwendung unterschiedliche Anforderungen. Das zeigt sich insbesondere im Rahmen von Advanced-Analytics-Projekten. Hier wird häufig mit bekannten und neuen Datenquellen experimentiert, um bislang unbekannte Zusammenhänge in Daten zu entdecken. Hierbei muss es möglich sein, mit Daten anders umzugehen als in der klassischen oder operativen BI. Die resultierende multimodale Analytics-Umgebung unterstützt einerseits qualitätsgesicherte standardisierte und wiederkehrende Analysen, ermöglicht andererseits jedoch auch freies und agiles Experimentieren. Das verbindende Glied dabei sind die Daten. Es gilt, den Haushalt der unternehmensrelevanten Daten (intern und extern) übergreifend und bewusst zu steuern. Hierfür benötigt man eine Datenstrategie, die die Leitplanken für die Umsetzung mittels einer Data Governance bildet. Diese muss die Bedürfnisse der operationalen IT-Systeme, der klassischen Business Intelligence und der Data Labs, in denen häufig Advanced-Analytics-Projekte umgesetzt werden, berücksichtigen. Gelingt dies, können Effizienz und Geschwindigkeit in analytischen Prozessen verbessert werden.

Datengetriebene Unternehmen benötigen aus verschiedenen Gründen eine Datensteuerung (Data Governance)

Ein datengetriebenes Unternehmen muss einerseits standardisierte, verlässliche Auswertungen auf Basis eines stabilen Datenhaushaltes ermöglichen. Auch muss es möglich sein, Ergebnisse aus Datenanalysen, die von geschäftlicher Relevanz sind, in entsprechende Zielsysteme zu integrieren, ohne deren Stabilität zu gefährden. Dies erfordert eine bewusste Verwaltung der Daten.

Doch der Bedarf an Entscheidungsunterstützung durch Datenanalysen ist nicht der einzige Treiber für eine Data Governance. Compliance- und Datenschutz-Regelungen verlangen von Unternehmen zunehmend mehr Transparenz über die Art und Weise, wie Daten im Unternehmen verarbeitet und wofür sie verwendet werden. Nicht zuletzt die EU-Datenschutzgrundverordnung (GDPR – General Data Protection Regulation), die im April 2016 beschlossen wurde und im Mai 2018 in Kraft tritt, zwingt Unternehmen, die personenbezogene Daten sammeln oder verarbeiten, Governance-Maßnahmen zu ergreifen. Diese sollen zum einen die Transparenz und Nachvollziehbarkeit des Datenmanagements sicherstellen.Weitere Anforderungen im BereichDatenschutz, Datenlöschung und Datenübertragung gilt es ebenfalls umzusetzen.

Eine strenge Regelung des Umgangs mit Daten und Software wird als nicht vereinbar mit der agilen Arbeitsweise in analytischen Projekten gesehen. Das Schaffen von datengetriebenen Lösungen erfordert ein hohes Maß an Agilität. Dabei wird kreativ mit bekannten und neuen Datenquellen experimentiert, um bislang unbekannte Zusammenhänge zu entdecken. Viele der Thesen, die man mit Hilfe von Daten zu verifizieren versucht, können falsch sein. Dies gilt es mit möglichst geringen Investitionen bezüglich Zeit und Budget herauszufinden. Hier spricht man gern vom „fail fast“, dem schnellen Scheitern. Es kommt also auf die schnelle Prototypisierung von Use Cases an, bei der Daten umgeformt, integriert und externe Daten hinzugezogen werden.

Im Gegensatz dazu werden operationale IT-Systeme, die die Kerngeschäftsprozesse des Unternehmens unterstützen, als geschäftskritisch gesehen. Das gilt inzwischen vielfach auch für BI-Anwendungen (siehe Abbildung 1). Hier werden häufig die sogenannten RAS-Eigenschaften verwendet, um die Robustheits-anforderungen an diese Systeme zu beschreiben: „Reliability“, „Availability“ und „Serviceability“. Diese Robustheit wird in der Regel durch Anwendung recht starrer Regeln in Entwicklung und Betrieb erreicht, die allerdings häufig die Flexibilität einschränken. So gibt es beispielsweise für die Umsetzung von Änderungen an den Systemen eine dedizierte Entwicklungsumgebung. Erst nach einem geordneten Test der Änderungen in einer gesonderten Testumgebung werden sie mit einem formalisierten Verfahren in die Produktion übergeben. Der gesamte Prozess kann sehr zeitintensiv sein, was einer der Gründe ist, weshalb Fachbereiche häufig über die Trägheit ihrer IT klagen. Entsteht eine neue fachliche Anforderung, kann es etwa viele Monate dauern, bis die neue Funktion zur Anwendung in der Produktion zur Verfügung steht.

Abbildung 1: Datenumgebungen multimodaler Analytics und Data Governance (Quelle: BARC)

Um getrennt von diesen Prozessen arbeiten zu können, werden Digitalisierungsinitiativen häufig im Rahmen eines Data Labs betrieben, der sogenannten explorativen Umgebung (siehe Abbildung 1). Ein solches Labor wird explizit für die Datenforschung ausgelegt und mit anderen Regeln versehen als die üblichen IT-Umgebungen. Daher ist diese Laborumgebung entkoppelt von den anderen produktiven Systemen und Daten des Unternehmens. Es wird vor allem mit fortgeschrittenen Analysemethoden gearbeitet, im Gegensatz zu Reporting, Dashboarding und OLAP-Analysen in der klassischen und operativen BI. Anwender genießen mehr Freiheiten, können aber deswegen auch nicht mit demselben Grad an Stabilität und Verlässlichkeit rechnen. Die Freiheitsgrade werden vor allem benötigt, um mit neuen Datenquellen und -typen, wie beispielsweise Log- und Sensordaten oder anderen, komplex-strukturierten Daten umgehen zu können.

Explorative Analysen erfordern aber auch hochqualitative Daten. Fehlende, inkonsistente oder nicht integrierbare Daten lassen sich nicht sinnvoll analysieren. Außerdem zeigt sich der tatsächliche Nutzen einer explorativen Umgebung erst, wenn Ergebnisse aus der Analyse operationalisiert werden. Das bedeutet, dass bei aller Agilität und Freiheit im Labor trotzdem auch ein Mindestmaß an Regeln erforderlich ist, um die spätere Integration der Analyseergebnisse im operationalen Betrieb sicherstellen zu können. Das hat technologische und organisatorische, aber vor allem auch datenspezifische Implikationen. Ist ein Vorhersagemodell auf Basis von Attributen entstanden, die im Datenpool der operativen Anwendung nicht existieren, kann das Modell dort nicht zur Anwendung kommen.

Dieser Prozess fokussiert dann wieder stabile Systeme, die gewartet werden können und hochqualitative Ergebnisse liefern, wobei dieselben Anforderungen an die Robustheit (Reliability, Availability und Serviceability) gelten wie in den Kerngeschäftsprozessen und der klassischen BI. Dabei entsteht der Bedarf nach einer multimodalen Analytics, also einem analytischen Prozess, in dem freies, agiles Experimentieren möglich ist und gleichzeitig robuste analytische Anwendungen auf Basis qualitätsgesicherter Daten operationalisiert werden können. Das verbindende Glied dabei sind die Daten. Es gilt, den Haushalt der unternehmensrelevanten Daten (intern und extern) übergreifend und bewusst zu steuern. Hierfür benötigt man eine Datenstrategie, die die Leitplanken für die Umsetzung mittels einer Data Governance bildet.


Eine multimodale Data Governance unterstützt die unterschiedlichen Anforderungen der verschiedenen Datenumgebungen

Data Governance wird oft als repressiv verstanden. Dabei soll Data Governance steuern, wo und wann aus geschäftsstrategischer Sicht Standardisierung und Stabilität zielführend sind, wann hingegen Freiheit und Veränderung erforderlich sind (siehe Abbildung 2).

Abbildung 2: Was ist Data Governance?
(Quelle: BARC)

Multimodale Data Governance hat zum Ziel, die allgemeinen Ziele und Wirkungsbereiche des Data Governance kontext-spezifisch und -gerecht zu betrachten, zu bewerten und zu reglementieren wo notwendig und sinnvoll. Der Kontext wird bestimmt aus den verschiedenen Datenwelten der multimodalen Analytics und der jeweiligen Anwendungsfälle.

Im Bereich der Kerngeschäftsprozesse sind Stabilität, Verlässlichkeit und Sicherheit unabdingbar. Auch klassische BI-Anwendungen werden zunehmend als geschäftskritisch angesehen, weshalb ähnliche Kriterien für eine zentral zu steuernde Data Governance angewendet werden wie für operative Systeme. Im Bereich der explorativen BI hingegen sind Governance-Kriterien häufig anwendungsfallbezogen und können bisweilen sehr stark von zentralen Vorgaben abweichen. Hier wird die Anwendung einer lokalen Governance erforderlich, die aber bewusst definiert und in die übergreifende Datenstrategie und Governance des Unternehmens eingebettet werden sollte.


Besondere Data-Governance- und Architektur-Konzepte für Big Data- und explorative BI-Umgebungen

Im Modus der fortgeschrittenen Analyse muss eine Data Governance Freiräume erlauben, die in den anderen beiden Umgebungen eher unerwünscht sind. Besondere Bedeutung kommt hier dem Data Lake zu. Im Gegensatz zum Data Warehouse werden im Data Lake rohe Quelldaten vorgehalten. Dies dient dem Ziel, jederzeit und insbesondere anwendungsfallspezifisch eine individuelle Datenaufbereitung aus den originären Daten vornehmen zu können.

Das Sammeln von Rohdaten entledigt von der zeitintensiven Implementierung von Datenaufbereitungsprozessen wie im Data Warehouse und verspricht daher im ersten Schritt eine höhere Agilität. Doch spätestens zum Analysezeitpunkt muss diese Datenaufbereitung dennoch geschehen, ist also nur aufgeschoben und nicht aufgehoben. So wird aus Advanced-Analytics-Projekten berichtet, dass etwa 80% der Zeit für Datenaufbereitung aufgewendet wird – eine Zahl, die aus dem Data Warehousing bereits bekannt ist. Es liegt daher nahe, auch im Data Lake eine Wiederverwendung von veredelten Daten anzustreben, um die Agilität in der Datennutzung zu erhöhen. Das kann einerseits durch die Nutzung von bereits aufbereiteten Daten aus dem Data Warehouse geschehen. Anderseits können (Zwischen-)Ergebnisse aus Analytics-Initiativen für eine Wiederverwendung im Rahmen anderer Anwendungsfälle interessant sein. Hierüber muss vor allem eine Data Governance wachen.

Zunächst sollte eine zentrale Stelle den Data Lake technologisch betreuen, seine Nutzung überwachen und Governance-Richtlinien durchsetzen. Eine der wichtigsten Guidelines sollte darin bestehen, neue Informationen, die im Data Lake abgelegt werden, mit gewissen Informationen zu registrieren. Typischerweise wird für die Anlieferung von Daten ein zentraler „Managed Service“ angeboten, der für Erstregistrierung mittels Informationen zu Business Domain, Quelle, Aktualität/Aktualisierungsfrequenz, Datentyp, Datenmenge, Datenqualitäts-Level, Business Owner, technischem Owner, Datensicherheitskategorie und den berechtigten lesenden Nutzern sorgt. Legt ein Use Case Owner neue Daten im Data Lake an, ist dieser für eine entsprechende Registrierung verantwortlich.

Im Gegensatz zu dem kollaborativ genutzten Data Lake bietet das Sandbox-Konzept die Möglichkeit, für einen Anwendungszweck abgeschottete, temporär verfügbare Umgebungen bereitzustellen. Diese Umgebungen können von Business-Usern und Data Scientists frei genutzt werden, um mit internen und externen Daten oftmals mit frei wählbaren Datenaufbereitungs- und Analysewerkzeugen zu experimentieren. Das Ziel besteht darin, den Anwendern sehr große Freiheiten einzuräumen, um besonders innovativ sein zu können. Aufgrund der entkoppelten Charakteristik der Sandbox ist eine Wiederverwendung der hier generierten Ergebnisse nicht sichergestellt. Eine Grundeigenschaft von Sandboxes ist ihre zeitliche Beschränkung: nach einer definierten Zeit (z. B. drei Monate) sollten die Sandbox-Inhalte gelöscht werden. Auf diese Weise wird Wildwuchs verhindert, da einmalige Erkenntnisgewinne erfolgt oder nachhaltig relevante Sachverhalte in die zentralen Umgebungen rückgeführt sein sollten.

In der initialen Phase von Advanced-Analytics-Projekten steht das freie Experimentieren mit Daten im Vordergrund. Ein nachhaltiges Datenmanagement ist hier vorerst nicht der Fokus. Hierbei soll jedoch nochmals erwähnt werden, dass durchschnittlich 80 % des Aufwands in Advanced-Analytics-Projekten in der Datenaufbereitung anfällt. In jedem einzelnen aktuellen und zukünftigen Projekt stellen diese Data-Preparation-Anstrengungen den größten Aufwandsblock dar! Hier liegt enormes Einsparpotential, denn nur die wenigsten Data-Preparation-Ergebnisse (Datenaufbereitungsstrecken, Datenqualitätsregeln, für Data-Mining-Algorithmen nutzbare Datenstrukturen, etc.) sind wirklich nur für einen einzigen Use Case nutzbar. Vielmehr können sie als Aufsatzpunkte für zukünftige Advanced-Analytics-Projekte dienen, um deren entsprechende Experimente schneller zu realisieren. Data Governance kann unterstützen, Use-Case-übergreifende Zwischenergebnisse der Datenaufbereitung zu sichern: Eine Kernkompetenz von Data Architects liegt in ihrem übergreifenden Blick auf Daten und ihrem Potential für Wiederverwendbarkeit in anderen Unternehmensbereichen mit deren individuellen Use Cases. Data Architects sollten daher mit in Advanced-Analytics-Projekte einbezogen werden und zusammen mit den Data Stewards die Wiederverwendbarkeit von Zwischenergebnissen prüfen. Data Governance unterstützt auch hier wieder mit der Definition und Schaffung von Methoden und Strukturen, um die übergreifende Wiederverwendbarkeit von Daten umzusetzen.


Ohne Datensteuerung verpassen datengetriebene Unternehmen wertvolle Chancen

Data Governance haftet das Vorurteil an, hinderlich, langwierig und lästig zu sein. Und erst recht im Kontext explorativer Umgebungen, die Power User und Data Scientists nutzen sollen, um möglichst schnell und frei innovative Lösungen zu finden, stellt sich die Frage, inwiefern die unternehmensweite Data Governance auch noch in diesen Bereich vordringen sollte. Bei näherer Betrachtung lautet die Antwort klar, dass die wichtigsten Ziele von Data Governance in höherer Effizienz und Schnelligkeit liegen:

Durch

  • eine klare Aufstellung von Rollen mit ihren Fähigkeiten und Verantwortlichkeiten,

  • definierte Vereinbarungen zur Nutzung der neuen Komponenten wie Data Lakes und Sandboxes in der Gesamt-IT-Umgebung,

  • verständliche Prozesse im Kontext der übergreifenden Nutzung, sowie

  • die Sicherung der Wiederverwendbarkeit von Zwischenergebnissen aus explorativen Umgebungen


wird den beteiligten Personen Aufwand erspart, sie können ihre Experimente schneller aufsetzen und haben mehr Zeit für die Bearbeitung der eigentlichen Problemstellung.


Jacqueline Bloemen ist Senior Analystin und Beraterin am Business Application Research Center (BARC) mit den Schwerpunkten auf BI und Analytics, Datenmanagement und Big Data. Sie berät langjährig Unternehmen unterschiedlicher Größen und Branchen im den Bereichen Strategiedefinition für Business Intelligence, Data Warehousing, Big Data Analytics und Digitalisierung, Architekturkonzeption und Softwareauswahl, Datenmodellierung und Lösungsdesign, sowie Organisation und Governance. Sie ist Autor von BARC-Marktstudien und -Forschungsartikeln und hält Vorträge auf Konferenzen und Seminare.

Lars Iffert ist Analyst und Berater bei BARC. Seine Schwerpunkte sind die Datenverwaltung, Datenintegration, Datenqualität sowie Advanced und Predictive Analytics. Er unterstützt Unternehmen bei strategischen Fragen, im Softwareauswahlprozess und in der Überprüfung bestehender Lösungen. Er ist Autor diverser BARC-Produkt- und Anwenderstudien.

Dr. Sebastian Derwisch ist Data Scientist bei BARC. Er berät Unternehmen in den Bereichen Use-Case-Identifikation für Datenanalyse, Werkzeugauswahl für Advanced
Analytics und die Organisation von Data-Science-Teams. Er führt Proof of Concepts für Advanced Analytics durch und gibt Data Science Coachings. Sebastian Derwisch ist Autor von BARC-Marktstudien und -Forschungsartikeln, hält Vorträge auf Konferenzen und BARC- und Inhouse-Seminare.

Das Business Application Research Center (BARC) ist ein Forschungs- und Beratungsinstitut für Unternehmenssoftware mit Fokus auf die Bereiche Business Intelligence/Analytics, Datenmanagement, Enterprise Content Management (ECM), Customer Relationship Management (CRM) und Enterprise Ressource Planning (ERP).

BARC-Analysten unterstützen seit 20 Jahren Unternehmen bei Strategie, Organisation, Architektur und Evaluationsfragen in diesen Themengebieten. Dabei vereinen die BARC-Analysten Markt-, Produkt- und Einführungswissen. Know-how-Basis sind die seit Jahren ständig durchgeführten Marktanalysen und Produktvergleichsstudien, die ein umfassendes Detailwissen über den Leistungsumfang aller marktrelevanten Softwareanbieter, neueste Entwicklungen und Best Practices sicherstellen.

BARC formt mit den Analystenhäusern CXP und PAC die führende europäische Analystengruppe für Unternehmenssoftware und IT Services mit Präsenzen in acht Ländern.

Homepage BARC Institut