Rasterfahndung 2.0 — <br>mit Big Data gegen Terroristen

Rasterfahndung 2.0 —
mit Big Data gegen Terroristen

Der Geheimdienst eines nordafrikanischen Landes ermittelt mit deutscher Datenmanagement-Technologie gegen Terroristen.

23.04.2018, Autor: Axel Bange

Rasterfahndung 2.0

Die Rasterfahndung ist eine deutsche Erfindung. Sie wurde in den 1970er Jahren zur Enttarnung der Mitglieder der RAF entwickelt. Dreißig Jahre später, im Jahr 2001, orakelte der Wirtschaftsinformatiker Steffan Baron von der Berliner Humboldt-Universität, dass man Data Mining zum Zwecke der Rasterfahndung einsetzen könne: Man müsste nur die kompletten Verzeichnisse der Meldebehörden, die Ausländerregister, die Daten der Geldinstitute, Telekommunikationsdienstleister und Fluglinien zusammenwerfen und die Maschine nach Ähnlichkeiten suchen lassen.

Heute, im Jahr 2018, ist Barons Vorhersage Realität. Möglich machen es die extrem vielen digitalisierten Daten und nutzbaren Datenquellen, sehr leistungsfähige Hardware sowie ausgeklügelten Verfahren und Softwarelösungen zur Datenanalyse. Diese „Rasterfahndung 2.0“ wird seit zwei Jahren zum Beispiel in einem nordafrikanischen Land durchgeführt. Mit Hilfe von Technologie aus Deutschland korreliert der Geheimdienst des Landes behördliche, Telekommunikations- und Meldedaten, um Terroristen zu identifizieren.


Echtzeitanalyse vieler Datenquellen

Das Frankfurter Unternehmen dataWerks liefert das Know-how: Dabei nutzt dataWerks neue technologische Möglichkeiten (siehe unten), um Fahndern die Arbeit im Vergleich zu vormals primär manuell betriebenen Datenabgleichen erheblich zu erleichtern. Das Unternehmen hat auf Basis ihrer zum Patent angemeldeten Technologie eine Software zur Datenvirtualisierung entwickelt, die es möglich macht, verschiedene und teilweise sehr umfangreiche Datenquellen in Echtzeit zu verknüpfen und zu analysieren.

Den in den letzten Jahren vollzogenen Quantensprung in der Rasterfahndung erläutert Klaus Lindinger, Digital Innovation Officer von dataWerks: „Unserer Ansatz der Datenvirtualisierung ermöglicht die hochperformante Analyse sehr vieler Datenquellen. Wir abstrahieren die entscheidenden Datenpunkte aus den Quellsystemen und lagern wichtige Datenbestände zwischen, sodass die Quellsysteme nicht von den Abfragen beeinträchtigt werden. Dann clustern und indizieren wir die relevanten Datenelemente für die Echtzeitanalysen."

Analyse von Bewegungsdaten

Klaus Lindinger erklärt, was die Lösung aus seiner Sicht so besonders macht: „Eine technologische Möglichkeit, die bisher so nicht bestand, ist die Analyse der Bewegungsdaten von Mobiltelefonen. Viele Täter versuchen durch kontinuierlichen Wechsel ihrer Prepaid-Telefonkarten ihre Identität und Bewegungsprofile zu verschleiern. Inzwischen kann man aber Profile geräteübergreifend identifizieren, wenn Datenbestände von mehreren Mobilfunkbetreibern abgeglichen werden und findet heraus wer sich wo und mit welchen anderen Personen bewegt. So wird mit den Bewegungsdaten eine Korrelation auf eine andere Ebene gehoben und man kann sie beispielsweise mit Finanztransaktionsdaten weiter anreichern: Hat jemand unter ähnlicher Identität verdächtige Geldbewegungen mit anderen Personen? Stimmen Bewegungs- bzw. Transaktionsmuster überein? Falls die Ermittler verdächtige Personengruppen identifizieren, können sie dann mit diesen Daten zur Staatsanwaltschaft gehen, um eine Freigabe für behördliche Daten zu erwirken. So vervollständigt sich das Bild und die Suche wird personenrelevant, der Zugriff kann dann gegebenenfalls noch rechtzeitig ohne Gefährdung nichtbeteiligter Personen erfolgen.“

Verhaftung nach Schnellkochtopfsuche

Schlagzeilen machte vor fünf Jahren die Verhaftung eines Ehepaares in den USA, das bei Google nach Schnellkochtöpfen gesucht hatte und nur deshalb vom FBI ungerechtfertigt des Bombenbaus verdächtigt wurde. Solche Fahndungsfehler sind für Klaus Lindinger ausgeschlossen: „Das ist nur ein Datenpunkt von vielen. Die Google-Suche oder der Kauf im Baumarkt alleine ist an sich erst mal nicht so spannend. Wenn aber eine bereits als verdächtig markierte Person diesen Schnelldruckkochtopf kauft, sieht das etwas anders aus." Damit das System zuverlässig funktioniert, müssen Datenpunkte und Algorithmen ständig überprüft und optimiert werden.

„Womit viele Verdächtige nicht rechnen, ist dass es gute Möglichkeiten gibt Informationen aus vielen unterschiedlichen Datenquellen zu kombinieren. Zudem bleibt Technologie nicht stehen, es gibt immer wieder neue Ansätze. Social Media Analysen beispielsweise werden aktuell wichtiger."


Kunde zufrieden

Der Geheimdienst des ungenannten nordafrikanischen Landes ist unterdessen „sehr zufrieden" mit dem Einsatz der Lösung. Konkrete Erfolgsgeschichten, die mit der „Rasterfandung 2.0" erzielt wurden, will man aus Gründen der Geheimhaltung nicht teilen. Also ein Allheilmittel? Nein, meint Klaus Lindinger: „Wenn es perfekt funktionieren würde, gäbe es ja keine Verbrechen mehr. Es ist weiterhin ein Katz-und-Maus-Spiel: Der Verbrecher sucht immer neue Wege, die Justiz zu täuschen, zum Beispiel durch andere Kommunikationswege. Aber er ist im Zweifel zwangsläufig auf Kommunikation angewiesen. Und da hat man die Chance, an die Daten heranzukommen."


Definition Rasterfahndung

Die Rasterfahndung ist ein Verfahren der Massendatenverarbeitung, bei der automatisiert Informationen aus Fremddatenbeständen mit anderen Datenbeständen abgeglichen werden, um bestimmte Personen zu ermitteln.[1]... Ziel ist es, die Gruppe der zu überprüfenden Personen einzuschränken, da es im Gegensatz zu einer konventionellen Fahndung keine bekannte Zielperson gibt. Die Methode wurde in den 1970er Jahren vom damaligen BKA-Präsidenten Horst Herold für die Fahndung nach RAF-Terroristen entwickelt.[2]  (Quelle: Wikipedia)

„Die EDV versetzt uns in die Lage, das Vergleichen von Fakten, d.h. die Voraussetzung detektivischer Kombinationsarbeit, schneller und zuverlässiger durchzuführen.“

Horst Herold, ehemaliger BKA-Präsident und Erfinder der Rasterfahndung


Das erste Rechnenzentrum des Bundeskriminalamts (BKA) wurde 1972 eingerichtet.

Indexierung in Zwischenschicht

dataWerks fungiert typischerweise als smarte Datenvirtualisierungsschicht zwischen den Datenquellen und der Datenvisualisierung. Auf diese Schicht wird eine spezifische Selektion der Rohdaten transferiert. Es handelt sich hierbei um keine Datenbank- oder Data-Warehouse-Struktur, sondern um Dateien und Elastic Search für Indezierung und Abfrage - also eher vergleichbar damit, wie Google seine Suchmaschine aufgebaut hat. Gemeinsam mit dem Kunden werden die für die Analysen relevanten Datenfelder innerhalb der Datensätze identifiziert und extrahiert.


Datenmenge um 90% reduzieren

Je nach Datenformat werden die Daten umformatiert. Des Weiteren wird definiert, wie häufig diese indexierten Datenfelder aktualisiert werden sollen. So ergibt sich über verschiedene Datenquellen hinweg eine drastische Verschlankung der zu analysierenden Datenmenge in dem Zwischenlayer. Im Schnitt erreicht dataWerks laut eigener Aussage eine Verschlankung um bis zu 90%, also beispielsweise von 100TB auf 10TB.


Patentierter Ansatz

Diverse Anbieter von Datenintegrations- und Datenvirtualisierungslösungen verfolgen durchaus ähnliche Ansätze, dies aber eher, um in ihrer übergeordneten Datenschicht unabhängig von all den Restriktionen bestehender Datenquellen und aufwändigen ETL-Prozessen den Zugriff auf die Rohdaten zu optimieren oder eine Monitoring und Governance-Ebene aufzubauen. Einzigartig und deswegen seit 2013 zum internationalen Patent angemeldet ist die an die Funktionsweise der Amygdala (Mandelkern im Limbischen System des Gehirns) angelehnte musterbasierte Herangehensweise von dataWerks: Alle für die Analyse relevanten Daten werden aus den multiplen, verschiedenartigen Datenquellen in so einem Layer mit Hilfe einer multidimensionalen Musterstruktur selektiert, dass nahezu alle Abfragen über diese Muster-Struktur in Echtzeit korreliert werden können und analyserelevante Ergebnisse liefern. Die Quellsysteme werden durch diese Prozessebene nicht nennenswert belastet, die Konnektierung ist automatisiert.