Um Daten erfolgreich analysieren zu können, ist eine vorherige korrekte Datenaufbereitung (engl. Data Preparation) notwendig. Daten von schlechter Qualität erzeugen schlechte Ergebnisse. Noch schlimmer sind Daten, deren Erfassung und Bereinigung zu lange dauert, weil sie zu groß oder zu fremd sind.
Erfahrene BI-Architekten und (Big-)Data-Scientists wissen, dass die Lösung für dieses Problem in einer guten Data Preparation liegt. Daten müssen aussortiert, aufgeräumt und gesäubert werden, damit die Datenanalyse gute Ergebnisse liefern kann.
Was genau ist Data Preparation?
Stellen Sie sich die Summe der Daten wie eine Mülldeponie vor. Daten werden von allen möglichen Stellen hineingeworfen, ohne vorherige Mülltrennung. Als Ergebnis hat man am Ende einen großen Haufen Informationen, von denen die meisten in ihrem aktuellen Zustand nutzlos sind. Sie nehmen außerdem Platz weg, beispielsweise in einem Data Lake. Schlimmer noch: Diese Daten haben häufig verschiedene Formate oder enthalten Duplikate und Fehler. Es ist ein unorganisiertes und unüberschaubares Gewirr.
Data Preparation löst diese Probleme. Sie sammelt Daten und bereinigt sie. Sie beseitigt Duplikate und Fehler. Sie erkennt, dass "William Bartram", "Bill Bartram" und "Bill Bertram" dieselbe Person ist und vereinheitlicht diese Datensätze. Unstrukturierte Daten, wie Telefonanrufe oder E-Mails werden in datenbankfreundliche Formate umgewandelt.
Für die Data Preparation gibt es eine Handvoll Namen wie „Data Blending", „Data Munging" und "Data Wrangling", um nur einige zu nennen. Welchen Begriff Sie auch immer bevorzugen, die Kernaktivitäten der Vorbereitung sollten Folgendes umfassen:
- discover (profilieren, suchen, extrahieren, klassifizieren)
- pivot, slice and dice
- transform (sortieren, verbinden, aggregieren, vorberechnen)
- cleanse (bereinigen, vereinheitlichen, validieren)
- mask (verschlüsseln, pseudonymisieren)
All dies sollte für eine große Bandbreite verschiedener Datenquellen gelten, mit so viel Anpassungsmöglichkeiten und Automatisierung wie möglich.
Abbildung 1: Mit welchen Problemen hat Ihr Unternehmen bei der Nutzung von Data Preparation zu kämpfen? (n=647 - Quelle)
Der Wert der Data Preparation
Wertvoll ist ein ziemlich vages Wort. Gold, zum Beispiel ist nur deshalb wertvoll, weil wir sagen, dass es wertvoll ist. Aber auch ein Strohhalm kann wertvoll sein, wenn Sie ein Kleinkind mit einer Tasse haben, weil Sie ihn brauchen. Unternehmen identifizieren Wert anders; sie extrahieren ihn je nachdem, wie er sich auf das Endergebnis auswirkt. Mit der Data Preparation beginnt der Prozess der Extraktion des Informationswerts, den die Daten liefern könnten.
Daten nutzbar zu machen ist entscheidend, um von ihnen zu profitieren. Eine gründliche Data Preparation gewährleistet gültige, qualitativ hochwertige Informationen. Sie hilft, Marketingkampagnen zu maximieren, indem sie Überschneidungen beseitigt und Segmente auf präzisere Metriken eingrenzt. Sie erschließt den Wert von Analytics und Self-Service-BI. Es bereitet die Daten sogar für den Verkauf von Datenprodukten vor, siehe Infonomics. Allein der Verkauf von Daten bringt der US-Supermarktkette The Kroger Co. jedes Jahr 100 Millionen Dollar an zusätzlichen Einnahmen.
Data Preparation vereint mehrere geschäftskritische Ziele. Sie dient der Beschaffung und Profilierung von Daten, der Integration von Daten, der Datenverwaltung und der Vorbereitung von Daten für Analysen. Wenn Sie in Data Preparation investieren, investieren Sie in die Zukunft Ihres Unternehmens. Denn ganz gleich, in welcher Branche Sie tätig sind, Daten sind die Zukunft Ihres Unternehmens.
Woran es scheitert
Bis hierhin hört sich Data Preparation doch ziemlich gut an, oder? Jedes datengesteuerte Unternehmen braucht sie, um Wettbewerbsvorteile zu erzielen. Je schneller Sie Daten konsistent und erfolgreich aufbereiten können, desto besser für Ihr Unternehmen. Dennoch tun sich viele Unternehmen schwer mit der Implementierung von Data-Preparation-Verfahren. Sie sind sich des Volumens und der Vielfalt der Daten nicht bewusst, die auf sie zukommen, können die Kosten und die Komplexität der Tools für Data Preparation nicht bewältigen und sehen keinen zufriedenstellenden ROI.
Eine BARC-Studie zeigt, dass es sehr oft an fehlendem Know-how scheitert (53% / n=647 - siehe Abbildung 1). Auch mangelndes Budget oder Ressourcen und fehlendes Vertrauen in die Datenqualiät /Ergebnisse wird oft als Problem bei der Umsetzung von Data Prep genannt.
Die TDWI-Studie „Improving Data Preparation for Business Analytics" zeigt, dass ein unzureichendes Budget das häufigste Hindernis bei der Verbesserung der Data Preparation ist. Das zweithäufigste Hindernis ist, "keinen ausreichend starken Business Case zu haben".
Es scheint also, dass viele Unternehmen ihre Daten nicht genug wertschätzen. Ihre Führungskräfte verstehen oder erkennen nicht das Potenzial ihrer Daten. Das erschwert den Geschäftsanwendern die Aufgabe, neue Lösungen für die Data Preparation zu rechtfertigen und zu budgetieren.
Abbildung 2: Data Preparation - Eingesetzte Werkzeuge und geplanter künftiger Einsatz (Quelle)
Die vorhandene Technologie
Der gängigste Ansatz für die benutzerdefinierte Data Preparation ist vielleicht gar keiner. MOLAP-, ROLAP- oder HOLAP-Cubes bieten sofortige "Slice and Dice" und berechnungsbasierte Analysen für relationale Datenbanken; sie sind jedoch in ihren Datenquellen und ihrer Leistung begrenzt und verfügen über keine Governance. Andernfalls werden rohe oder virtuelle Tabellen im Ruhezustand oder Daten, die über ein Logical Data Warehouse zusammengeführt werden, oft direkt für analytische Prozesse oder Plattformen verwendet.
Tools, die dieses Problem auf DB-agnostische Weise angehen, unterstützen die Erkennung, Integration, Migration, Governance und Analyse von Multi-Source-Daten sowohl in Prepartion- als auch in Präsentations-Frameworks, die in der Regel kostengünstiger, einfacher zu konfigurieren und schneller sind als spezielle Datenvorbereitungs- und Legacy-ETL-Tools.
Dedizierte Tools für Data Preparation sind schneller und verlässlicher auch bei großen und komplexen Datenmengen, als ältere BI-Tools und teilweise auch moderne Analytics-Plattformen - die oft bei Big Data versagen. Neben Performance-Verbesserungen ergeben sich außerdem Effizienzgewinne durch wiederverwendbare Daten. Durch zentrale Datenspeicher werden Handhabungsaufwand und Synchronisationsprobleme reduziert.
Neuere Produktangebote in diesem Bereich wie IRI, Alteryx, Paxata und Trifacta, die Daten für Analytics aufbereiten, sollten für jeden Datenarchitekten interessant sein.
BI Scout Marktübersicht
David Friedland ist COO und Sr. VP bei IRI, The CoSort Company. Er begann 1988 bei IRI als Leiter der Technologiestrategie und für Partner-Development. Heute ist er auch für das Management des Unternehmens verantwortlich, während er weiterhin das Wachstum von Kunden und Vertriebskanälen, die Erweiterung der Produktlinie, Marketingmaterial, Lizenzvereinbarungen und neue Projekte beaufsichtigt.
Amadeus Thomas ist seit 2015 geschäftsführender Gesellschafter des Familienunternehmens JET-Software GmbH, gegründet in 1986. Seine Anfänge gehen zurück in das Jahr 2011, hier begann zunächst sein duales Studium und dadurch konnte er in sämtliche Bereiche der JET-Software Einblick bekommen. Im Jahr 2021 feiert er schon sein 10-jähriges Firmenjubiläum!"
Aktuelle Beiträge
-
Künstliche Intelligenz braucht ethische Leitplanken
-
Alternative Data: Warum lohnt sich der Blick über den Daten-Tellerrand?
-
Data Science-Projekte: Drei Hindernisse auf dem Weg zum Erfolg
-
"Es fällt vielen Branchen schwer, die Potenziale der Digitalisierung zu erkennen."
-
Die IBM KI-Leiter: Mit KI ganz nach oben
-
Von einfachen Data Catalogs zu intelligenten Systemen
BI & Big Data Events
News
Weitere News-
Neues TDWI Poster "Process Mining - Datenanalyse in Prozessen zur digitalen Prozessoptimierung"
-
Prognosen 2022: So verschafft smarte Datennutzung Unternehmen Wettbewerbsvorteile
-
Flughafen München: Weniger Lärm und Schadstoffe dank Data Analytics
-
Digitalisierung: Sieben von zehn Deutschen halten Politik für ahnungslos
-
CoPlanner erweitert seine Geschäftsführung
-
Die Kaufprioritäten der Analytics- und BI-Käufer sollten datengetrieben sein