Das weltweit erste offene Protokoll für sicheren Datenaustausch zwischen Unternehmen in Echtzeit

Quelle: Databricks

26.05.2021

Databricks kündigte heute auf dem Data + AI Summit den Start eines neuen Open-Source-Projekts namens Delta Sharing an. Dabei handelt es sich um das weltweit erste offene Protokoll für den sicheren Austausch von Daten zwischen Unternehmen in Echtzeit, völlig unabhängig von der Plattform, auf der sich die Daten befinden. Delta Sharing ist Teil des Open-Source-Delta Lake Projekts und wird von Databricks und einer Vielzahl von Daten-Providern wie NASDAQ, ICE, S&P, Precisely, Factset, Foursquare, SafeGraph und Softwareanbietern wie AWS, Microsoft, Google Cloud und Tableau unterstützt. Es ist das fünfte große Open-Source-Projekt, das von Databricks gestartet wurde, nach Apache Spark, Delta Lake, MLflow und Koalas, und wird der Linux Foundation übergeben.

Die gemeinsame Nutzung von Daten ist für die digitale Wirtschaft von entscheidender Bedeutung geworden. Unternehmen möchten Daten einfach und sicher mit ihren Kunden, Partnern und Lieferanten austauschen - wie z. B. ein Einzelhändler, der zeitnahe Bestandsdaten mit jeder der von ihm geführten Marken teilt. In der Vergangenheit waren Lösungen für den Datenaustausch jedoch an einen einzigen Anbieter oder ein kommerzielles Produkt gebunden, wodurch der Datenzugriff an proprietäre Systeme gebunden war und die Zusammenarbeit zwischen Unternehmen, die unterschiedliche Plattformen nutzen, eingeschränkt wurde.

„Die größte Herausforderung für Datenanbieter besteht heute darin, ihre Daten einfach und auf breiter Basis konsumierbar zu machen. Die Verwaltung von Dutzenden verschiedener Datenbereitstellungslösungen, um alle Benutzerplattformen zu erreichen, ist schwierig. Ein offener, interoperabler Standard für die gemeinsame Nutzung von Echtzeitdaten wird die Erfahrung sowohl für Daten-Providern als auch für Datennutzer verbessern“, sagt Matei Zaharia, Chief Technologist und Co-Gründer von Databricks. „Delta Sharing wird standardisieren, wie Daten sicher zwischen Unternehmen ausgetauscht werden, unabhängig davon, welche Speicher- oder Computing-Plattform sie verwenden, und wir freuen uns, diese Innovation Open Source zur Verfügung zu stellen.“

Delta Sharing hebt die Bindung an einen bestimmten Anbieter auf und ermöglicht eine viel breitere und vielfältigere Palette von Anwendungsfällen. Beispielsweise eine akademische Einrichtung und ein Krankenhaussystem, die gemeinsam an der Erforschung von Impfstoffen arbeiten, hätten zum Beispiel eine standardisierte, einfache Möglichkeit, Forschungsdaten sicher auszutauschen und gemeinsam an ihren Ergebnissen zu arbeiten. Sie wären nicht durch proprietäre Datenformate oder unterschiedliche Anwendungen und Tools eingeschränkt und es wäre nicht erforderlich eine komplexe Einrichtung wie die Installation der gleichen Data-Warehouse-Software in beiden Organisationen vorzunehmen. Oder ein Hersteller von Triebwerken für Flugzeuge hätte einen Standardweg, um auf Triebwerksleistungsdaten der verschiedenen Fluggesellschaften zuzugreifen, die er beliefert, selbst wenn jede Fluggesellschaft einen anderen Satz von Systemen zur Speicherung und Verwaltung dieser Daten verwendet.

Delta Sharing erweitert die Anwendbarkeit der Lakehouse-Architektur, die heute von Unternehmen schnell adaptiert wird, da sie einen offenen, einfachen, kollaborativen Ansatz für Daten und KI innerhalb und nun auch zwischen Unternehmen ermöglicht.

Ein neuer offener Standard für die sichere gemeinsame Nutzung von Daten in Unternehmen

Delta Sharing basiert auf Delta Lake 1.0 und profitiert von einem herstellerneutralen Governance-Modell, das von der Linux Foundation unterstützt wird. Delta Sharing etabliert einen gemeinsamen Standard für die gemeinsame Nutzung aller Datentypen mit einem offenen Protokoll, das in SQL, Visual-Analytics-Tools und Programmiersprachen wie Python und R verwendet werden kann. Delta Sharing ermöglicht es Unternehmen außerdem, bestehende große Datensätze in den Formaten Apache Parquet und Delta Lake nahtlos und in Echtzeit zu teilen, ohne sie zu kopieren, und kann einfach in bestehende Software implementiert werden, die Parquet unterstützt.

Die Einführung von Delta Sharing ist der jüngste Fortschritt im Streben von Databricks nach einem offenen, demokratisierten Daten- und KI-Ökosystem. In der Erkenntnis, dass Innovation durch Zusammenarbeit und nicht durch Isolation gedeiht, baut Delta Sharing auf dem langjährigen Engagement des Anbieters für die Open-Source-Gemeinschaft auf und ergänzt einen langjährigen Katalog von Open-Source-Projekten, darunter die weit verbreiteten Delta Lake, Apache Spark™, MLflow und Koalas - Projekte, die von Data Teams auf der ganzen Welt mehr als 15 Millionen Mal pro Monat heruntergeladen werden.


Herstellerneutrale Flexibilität, um gemeinsam genutzte Daten mit Tools der Wahl zu nutzen, zu analysieren und zu visualisieren

Delta Sharing bietet integrierte Sicherheitskontrollen und einfach zu verwaltende Berechtigungen, die sicherstellen, dass Datenschutz- und Compliance-Anforderungen bei der sicheren gemeinsamen Nutzung von Datenbeständen in Unternehmen erfüllt werden. Delta Sharing ermöglicht es Unternehmen außerdem, Daten vertrauensvoll mit Zulieferern und Partnern zu teilen und gleichzeitig jedem dieser Data Teams die Flexibilität zu geben, diese gemeinsamen Daten mit den Tools ihrer Wahl abzufragen, zu visualisieren und anzureichern, einschließlich Azure Data Share, Azure Purview, GCP Big Query, AtScale, Collibra, Dremio, Immuta, Looker, Privacera, Qlik, Power BI und Tableau.

„Die Möglichkeit, einfach auf Daten zuzugreifen, sie zu analysieren und zu teilen, ist entscheidend für die Innovationsförderung und den Aufbau wirklich datengesteuerter Organisationen“, sagt Francois Ajenstat, Chief Product Officer bei Tableau. „Die Etablierung eines neuen, offenen Standards für die gemeinsame Nutzung von Daten steht im Einklang mit der Mission von Tableau, Daten für alle zugänglich zu machen und jeden in die Lage zu versetzen, schnellere und intelligentere Entscheidungen zu treffen.  Wir freuen uns darauf, Delta Sharing zu unterstützen und unseren Kunden zu helfen, die Flexibilität eines offenen, kollaborativen Datenökosystems zu nutzen.“

Als offenes Protokoll für den sicheren Austausch von Daten zwischen Unternehmen, unterstützt durch das Delta Lake Open-Source-Projekt, Databricks und kommerzielle Partner:

„Wir unterstützen Delta Sharing und seine Vision eines offenen Protokolls, das den sicheren Datenaustausch und die Zusammenarbeit zwischen Organisationen vereinfachen wird. Delta Sharing wird die Art und Weise, wie wir mit unseren Partnern zusammenarbeiten und verbessern. Es wird die Betriebskosten senken und es mehr Nutzern ermöglichen, auf ein umfassendes Angebot an Nasdaq-Daten zuzugreifen, um Erkenntnisse zu gewinnen und Finanzstrategien zu entwickeln“, sagt Bill Dague, Head of Alternative Data bei Nasdaq.

„Unsere Investition in Azure Data Share spiegelt die Vision wider, die wir mit Databricks teilen – nämlich, dass der Datenaustausch offen sein sollte. Wir sehen, dass Delta Sharing gut zu dieser Vision passt. Wir freuen uns, mit Databricks bei unseren gemeinsamen Zielen voranzukommen, um ein offenes Datenökosystem zu unterstützen“, sagt Mike Flasko, Partner Director, Program Management bei Microsoft.

Google Cloud und Databricks teilen die gemeinsame Vision, Daten zugänglich, verwertbar und offen zu machen, um Unternehmen dabei zu helfen, in der heutigen, sich schnell verändernden Umgebung fundierte Entscheidungen zu treffen“, sagt Sudhir Hasbe, Director Product Management bei Google Cloud. „Wir freuen uns, Databricks auf der Google Cloud bereitzustellen und die Zugänglichkeit und Portabilität von Daten durch Lösungen wie BigQuery zu unterstützen, um sicherzustellen, dass Unternehmen Daten sicher teilen und neue und einzigartige Erkenntnisse gewinnen können.

Weitere Informationen zu Delta Sharing oder zur Beteiligung an der Delta Lake Open-Source-Community finden Sie hier


> Databricks Homepage