Ein See voller Informationen: der richtige Umgang mit Data Lakes

Quelle: ITGAIN Consulting Gesellschaft für IT-Beratung mbH

05.04.2018

Wer große Mengen unterschiedlicher Datenformen für Analytics nutzen will, kommt an Data Lakes kaum vorbei. Doch um die richtigen Daten zum Fließen zu bringen, ist beim Einrichten einiges zu beachten. Ansonsten kann aus dem See durchaus ein nutzloser Tümpel werden. IT Consultant Jens Lehmann erklärt, wie ein Data Lake strukturiert sein sollte.


Herr Lehmann, parallel zu Data Warehouses nutzen immer mehr Unternehmen Data Lakes. Was ist eigentlich der Unterschied?

In einem Data Lake werden große Mengen angelegt – also Big Data, die man so in einem Data Warehouse nicht speichern kann. Denn Data-Lake-Daten können im Rohzustand verbleiben. Und sie können aus unterschiedlichen Quellen stammen. Um im Bild zu bleiben: Ein Data Lake ist ein großes Gewässer, gespeist aus mehreren Zuflüssen. Ein Data Warehouse besteht eher aus vielen befüllten Behältern mit bereits gedruckten Etiketten.


In welchen Anwendungsfällen ist Analytics per Data Lake denn sinnvoll?

Vor allem wenn große Massen an Informationen mit herkömmlichen Mitteln nicht analysiert werden können. Viele Unternehmen haben Millionen von Sensordaten, Verkaufsinformationen oder Social-Media-Inhalten, die ein Data Lake gemeinsam speichern kann.


Ok. Und wie sorge ich dafür, dass diese Daten zusammen nutzbar sind? Wie strukturiere ich einen Data Lake richtig?

Man muss die Rohdaten mit zusätzlichen Merkmalen anreichern. Zum einen mit Metadaten, die verraten, von welchem Ort aus jemand auf eine Website zugegriffen hat. Zum anderen mit Metaprozessinformationen – sprich Infos darüber, wann und wo Daten generiert wurden. Bei einem Hersteller für Dichtungen heißt das: Welche Maschine hat die Dichtung um 14 Uhr hergestellt? Außerdem braucht es Kontextdaten, die Texteingaben von Kunden in Formularen oder E-Mails strukturieren. Denn ein Computer kennt zum Beispiel nicht den Unterschied, wann mit dem Wort „Bank“ das Geldinstitut oder die Sitzgelegenheit gemeint ist. Zu guter Letzt beschreiben Zuordnungshinweise die Beziehung zwischen Daten, also ob Abhängigkeiten zwischen Merkmalen bestehen.


Reicht das, oder braucht es noch mehr Struktur?

Es reicht nicht ganz. Viele Unternehmen häufen aus verschiedenen Abteilungen verschiedene Daten an. Sie sollten daher den großen Data Lake in Data Ponds unterteilen – also in kleinere Datenteiche, wenn man so will. Die Daten in den Teichen können aber dennoch durch die Metadaten miteinander verbunden werden.


Was heißt das genau?

Ausgehend von den beschriebenen Zusatzmerkmalen legt man Data Ponds an. Das heißt, analoge Daten, Textdaten und Prozessdaten bilden eigene Bereiche, Cluster genannt. Sie werden auch mit verschiedenen technischen Methoden zusammengefasst. Das ist Expertenarbeit. Aber am Ende sind die Daten nicht nur für Experten nutzbar, sondern für viele Mitarbeiter.


Haben Sie ein Beispiel?

Endanwender wie Verkaufspersonal oder Marketingexperten können Data Lakes nutzen. Sie finden schnell Zusammenhänge – zum Beispiel zwischen allen produzierten Dichtungen in der eben angesprochenen Produktion. Ist eine Charge fehlerhaft, kann man anhand ihrer Zusatzdaten sehen, welche Maschine sie wann produziert hat – und den Fehler finden. Oder man findet schnell eine Auflistung der häufigsten Kundenkommentare der letzten Monate zu einem Produkt.


Klingt rechenintensiv. Was braucht es an Hardware, um mit Data Lakes zu arbeiten?

Praktischerweise lässt sich ein Data Lake ohne aufwändige Rechnerarchitektur betreiben. Über das Open Source Framework Hadoop können in den Clustern viele Computer miteinander verbunden werden, die ihre Rechenleistung für den Data Lake zur Verfügung stellen.


Haben Sie noch generelle Hinweise für den Nutzen eines Data Lakes?

Es reicht nicht, den Data Lake mit Inhalten aus allen zur Verfügung stehenden Quellen zu fluten. Vielmehr sollte es darum gehen, die Möglichkeiten diesesKonzeptes richtig zu nutzen. Ohne Vernünftiges Information Lifecycle Management und entsprechende Governance wird dies nicht gelingen. Daher ist eine Vorab-Analyse der Ziele enorm wichtig.


"Richtig angelegt sind die Daten aus Data Lakes nicht nur für Experten nutzbar, sondern für viele Mitarbeiter."

Jens Lehmann, IT Consultant bei ITGAIN.

Case study