<strong>Automatisiertes Machine Learning</strong>

Automatisiertes Machine Learning

Use Cases, Anbieter, Funktionen

25.03.2019, Autor: Dr. Sebastian Derwisch

Was ist automatisiertes Machine Learning?

Automatisiertes Machine Learning beschreibt einen Ansatz, bei dem Software auf Basis der eingelesenen Daten automatisch verschiedene Modelle trainiert und optimiert. Einige Produkte unterstützen zudem die automatisierte Erstellung von Validierungsstrategien, Ergebnisauswertungen und die Selektion des besten Modells. Manche Werkzeuge automatisieren ebenfalls das Feature Engineering, die Auswahl relevanter Attribute sowie Teile der Datenaufbereitung und decken damit weite Teile der Machine Learning Pipeline ab.

Software, die automatisiertes Machine Learning unterstützt, findet in den letzten Jahren starke Verbreitung. Nicht nur wurden neue spezifische Applikationen entwickelt. Auch etablierte kommerzielle Advanced-Analytics-Plattformen integrieren diese neuen Funktionen in ihr Portfolio. Zudem widmen sich mittlerweile verschiedene Open-Source-Bibliotheken diesem Thema.

Aber was genau wird bei diesen Ansätzen automatisiert und in welchen Szenarien wird die Software genutzt? Zunächst einmal ist es wichtig zu verstehen, dass automatisiertes Machine Learning nicht gleichbedeutend mit der Automatisierung von Data Science ist. Data Science besteht im Kern darin, einen Anwendungsfall und seine Hypothesen auf Grundlage von Daten zu untersuchen und schließlich ein mathematische Modell zu erstellen, welches Informationen liefert (ausgibt, ob einem Kunden ein Kredit gegeben oder verweigert werden sollte). Automated Machine Learning Software unterstützt häufig bei diesen dargestellten Aufgaben. Jedoch sind das nicht alle Herausforderungen, die bei einem Data-Science-Projekt zu bewältigen sind. Data Science setzt sich aus verschiedenen Schritten zusammen (siehe Abbildung) und ist somit weiter gefasst als Machine Learning: Wie ist die Zielvariable zu definieren, die prognostiziert werden soll? Welche Daten sind relevant? Liegt ein Bias in den Daten vor? Welche mathematischen Ansätze sind überhaupt für einen bestimmten Use Case relevant? Derartige Fragen können nach wie vor und auch in Zukunft nur von Menschen aufgestellt, diskutiert und schließlich entschieden werden. Im Gegensatz zu Automated Machine Learning ist Data Science also nicht beschränkt auf das Finden des richtigen mathematischen Modells.

Automated Machine Learning Software eignet sich um Data-Science-Projekte zu beschleunigen; Neueinsteiger können “Data Science Assistants” nutzen um schneller produktiv zu werden.

Folgende Aufgaben werden häufig unterstützt:

  • Benchmarking – die automatisierte Analyse liefert schnell erste mögliche und adäquate Modelle. Hiermit können verschiedene weitergehende Schritte exploriert und der erste sinnvolle Lösungsansatz identifiziert werden. Dieser kann dann entweder in einer Advanced-Analytics-Plattform oder in Code wie R oder Python auf Basis von Fachwissen weiterentwickelt werden. Darüber können auch wertvolle Hinweise zur weiteren Entwicklung der Modelle abgeleitet werden.
  • Diagnose und Exploration – Die meisten Produkte bieten sehr umfassende Ergebnisdarstellungen. Dabei kann im Vergleich zur händischen Erstellung Zeit gespart und die Modelldiagnose qualitativ verbessert werden. Manche Softwarepakete bieten spezifische Funktionen, die komplexe Modelle noch besser interpretieren.
  • Lernen – Automatisierte Analysen ermöglichen speziell bei grafischen Nutzeroberflächen auch unerfahrenen Nutzern einen leichten Einstieg in die Thematik. Über das Experimentieren mit Daten und Analysen kann so auch für diese Nutzer die Einstiegshürde verringert und das Verständnis verbessert werden.


Übersicht der Lösungen

Umsetzungen von automatisiertem Machine Learning finden sich integriert in Advanced-Analytics-Plattformen, als spezifische Applikationen und Open-Source-Bibliotheken. Ein wesentlicher Unterschied dieser Optionen besteht darin, wie flexibel die Daten für die Modellierung vorbereitet werden können. Ein großer Vorteil der Integration in Advanced-Analytics-Plattformen besteht darin, dass umfangreichere Funktionen für die ganzheitliche Umsetzung von Data-Science-Lösungen mit zur Verfügung stehen, wie Möglichkeiten der Datenbearbeitung oder umfangreiches Rollen-, Rechte- und Versionsmanagement sowie umfangreichere Schnittstellen. Spezifische Applikationen sind hier oft eingeschränkter. Diese sind zumeist auf vorbereitete Daten angewiesen. Zumindest werden gewisse Schritte der Datenaufbereitung automatisiert, z. B. der Umgang mit Lücken in den Daten, die Bereinigung von Ausreißern oder die Skalierung der Daten. Datenaufbereitungsschritte, die hingegen fachliches Wissen erfordern, wie das Joinen von Tabellen, sind zumeist nicht möglich.

In der BI Scout Marktübersicht (Bereich Advanced Analytics) haben wir die unterschiedlichen Anbieter mit ihren Produkten aufgeführt, die AutoML-Funktionen integriert in Advanced-Analytics-Plattformen und als spezifische Applikationen anbieten sowie die wichtigsten verfügbaren Open-Source-Bibliotheken.

Fazit

Die heute verfügbaren Lösungen für Auto ML haben den Prozess der Datenaufbereitung, des Feature Engineerings, der Auswahl, Optimierung und Validierung von Modellen sowie die Interpretation
der Ergebnisse vielerorts bereits schon stark automatisiert. Die oben beschriebenen Zwecke wie Benchmarking und Rapid Prototyping lassen sich damit gut bewältigen. Kommerzielle Werkzeuge weisen z. T. recht intuitive Oberflächen auf, damit auch nicht-technische Anwender gewisse Data-Science-Aufgaben realisieren können.

Vor dem Hintergrund der Vielfalt der kommerziellen Produkte, Bibliotheken und Open-Source-Werkzeuge einerseits und den unterschiedlichen Anforderungen und Zielen der Anwender andererseits kann eine strukturierte Software-Bewertung dabei helfen, die passende und in der Gesamtkostenbetrachtung günstigste Lösung zu identifizieren und auszuwählen.

Abbildung: Analytischer Zyklus mit wesentlichen Aktivitäten im Rahmen der Machine Learning Pipeline



Lösungen für Automatisiertes Machine Learning

HerstellerProdukt
DataikuDSS Studio
DataRobotData Robot Enterprise
H2OAutoML
H2ODriverless AI
IBMWatson Data Platform - Automatic Model Builder
MLJarMLJar
PurepredictivePurepredictive
RapidminerAutoModel
SAPSAP Predictive Analytics
SKLearnSKLearn
TaziTazi
TPOTTPOT
Waikato UniversityWeka