Coronakrise, Datenkrise, Datenvisualisierungskrise – Teil 1<br>

Coronakrise, Datenkrise, Datenvisualisierungskrise – Teil 1

06.05.2020, Autor: Stefan Sexl

Im Zuge der Corona-Pandemie spielen Datenanalysen und -visualisierungen entscheidende Rollen: Wie entwickeln sich die Fallzahlen? Wie viele freie Krankenhausbetten gibt es? Werden Testkapazitäten voll genutzt? Welche Auswirkungen hat die Pandemie auf den Alltag?

Führende Medien veröffentlichen dazu täglich Datenvisualisierungen. Wir haben Experten für Business Intelligence und Data Analytics gebeten, einige dieser Visualisierungen kritisch zu betrachten: Was ist gut? Was ist schlecht? Was könnte man besser machen?
Im ersten Teil der Serie analysiert Stefan Sexl eine Grafik von Spiegel Online.

Die Datenbasis ist instabil

Das erste, was mir zur Frage „Datenvisualisierungen und Corona“ einfällt: Die Visualisierung ist nicht das Problem – sondern die Daten. Die Datenbasis rund um die Coronakrise ist mehr als instabil – für den normalen Bürger ist es selbst bei überdurchschnittlichem Interesse extrem schwierig, sich ein objektives Bild zu machen. Dies ist auch der Grund, warum die Anhänger jeder These – vom erweiterten Schnupfen bis zur tödlichen Pest – irgendwo Daten finden, die ihre These scheinbar stützen. Ich hoffe, die Experten in Ministerien, Gesundheitsämtern und Kliniken haben bessere Daten zur Verfügung, die nicht veröffentlicht werden. Die öffentlich zugänglichen Daten – das Dashboard meiner Wahl ist übrigens covidly.com, eine tolle private Initiative – sind einfach unvollständig und vor allem im Zeitverlauf instabil. Beispiel: Die täglichen Sterbestatistiken werden in vielen Ländern nach Meldedatum, nicht nach Sterbedatum veröffentlicht – in Schweden beispielsweise wird scheinbar am Wochenende kaum gestorben. Damit sind kurzfrequente Veränderungen von Wachstumsraten etc. nicht sinnvoll analysierbar.

„Die Visualisierung ist nicht das Problem, sondern die Daten."

Fehlende Relevanz der Kennzahlen

Das zweite was mir zu dem Thema einfällt ist ein Aspekt, den man auch oft in klassischen Dashboards in Unternehmen antrifft: Fehlende Relevanz. Die Auslastung (und zu befürchtende potentielle Überlast) des Gesundheitsbereiches, insbesondere der Intensivmedizin, war einer der wesentlichsten Argumente des Lockdowns. Die dafür erforderliche Kennzahl „%Auslastung Intensivbetten“ fand und findet man in der medialen Berichterstattung – und auch den mir bekannten Dashboards – fast nie. Der Fokus liegt dafür auf der Zahl der Infizierten, eine Kennzahl, die auf Grund unterschiedlicher Rahmenbedingungen (Anzahl Tests, Art der Auswahl der zu Testenden, Testmethodik) meiner Ansicht nach in keiner Weise zum Vergleich der Länder taugt. Der Umstand, dass laut offiziellen Daten momentan die Sterberate der Infizierten in den USA bei ca. 5% liegt und in Belgien bei über 15% wird wahrscheinlich nicht dem überlegenen amerikanischen Gesundheitswesen zuzuschreiben sein, sondern eben der mangelnden Vergleichbarkeit des Zählers. Auch innerhalb von Ländern hat sich über die Wochen nicht nur die Verfügbarkeit von Tests, sondern auch das Auswahlverfahren der zu Testenden geändert: Jede Interpretation der Daten entlang der Zeit wird damit schwierig.

„Die wichtigen Kennzahlen findet man in der medialen Berichterstattung fast nie."

Abbildung 1: Spiegel Online, 26.4. 2020, „Wie Corona die Kriminalität verändert" (Quelle)

Meine Kritik

Und damit zur eigentlichen Frage der Datenvisualisierung: Die Grafiken sind im Durchschnitt gar nicht so schlecht, Gurus wie Rolf Hichert haben in den letzten Jahren auch in deutschen Zeitungen und Magazinen Spuren hinterlassen. Und trotzdem bleibt genug zu kritisieren. Ich nehme das Beispiel der „Polizeilich erfassten Gewalttaten in US-Großstädten“ aus dem Spiegel (siehe Abbildung 1) – so sehr ich diesen redaktionell schätze, bei den Grafiken hat die Redaktion noch viel Potential nach oben:
 

  • Die Überschrift passt nicht zur Aussage: Lese ich die Grafik und den begleitenden Text mit Ruhe, dann geht es in der Grafik um die VERÄNDERUNG der Gewalttaten in amerikanischen Großstädten durch den Lockdown. Die Überschrift suggeriert eine ALLGEMEINE Statistik zur Verbrechenshäufigkeit, und in genau diese Falle bin ich zunächst auch getappt. Eine bessere Überschrift hätte gelautet: „Veränderungen der Zahl der Gewalttaten in US-Großstädten seit dem Lockdown“, denn das ist die Botschaft, die die Grafik vermitteln soll.

  • Die Auswahl der Städte erscheint zufällig – oder Böswilligkeit unterstellend manipulativ: Es werden nicht die größten Städte der USA gezeigt - aus den Top 6 nach Einwohnern fehlen mit Houston und Washington bereits zwei, sondern eine scheinbar zufällige Auswahl. Die Frage ist warum: Gab es nur für diese Daten oder will der Autor bewusst nur Städte auswählen, die seine Wunschbotschaft unterstützen? Später beim Erstellen der alternativen Visualisierung ergibt sich dann die Auflösung: Offensichtlich wurden die 11 Großstädte ausgewählt, die den größten Rückgang bei Gewalttaten aufweisen.

  • Die Farbcodierung der einzelnen Verbrechensarten ist zu ähnlich: Drei unterschiedliche Rottöne sind für das Auge kaum zu unterscheiden: Am Beispiel New York, bei dem die einzelnen Kugeln nahe beieinander liegen, zeigt sich die Schwierigkeit der Decodierung für den Leser.

  • Die Kugelgrafik hat ein systemimmanentes Problem: Was, wenn zwei oder mehr Werte zufällig exakt ident sind und damit übereinanderliegen? Ein wunderbares Beispiel findet sich in der Grafik des Spiegel – Ratespiel: Unter welcher der vier angezeigten Kugeln liegt die Entwicklung der Vergewaltigungen in Chicago, also die orange Kugel?

  • Die Kennzahl „Gewalttaten“ bildet die Summe der vier anderen Kategorien Mord, Vergewaltigung, Raub und Überfall ab, ohne optisch irgendwie von diesen unterscheidbar zu sein, erscheint also auf den ersten Blick als eine weitere gleichwertige Verbrechenskategorie. Die Schlussfolgerung, dass es sich dabei um die Summe (oder den Mittelwert, auch dies bleibt offen) der vier anderen Kategorien handeln muss, bleibt dem Leser überlassen.

  • Die fehlenden absoluten Zahlen machen die Bewertung der Daten schwierig: Nashville hat eine Steigerung der Morde um über 250% zu verzeichnen, in Unkenntnis der Basisdaten: Dies kann ein einzelner Amokläufer gewesen sein, der zufällig während der 28 Tage Beobachtungszeitraum zugeschlagen hat. Die völlig unterschiedlichen Entwicklungen der einzelnen Städte, bei denen es in einigen einen deutlichen Rückgang der Morde um 50% gegeben hat, in anderen eine Steigerung von 100% oder mehr lassen vermuten, dass die Basisdaten für eine relevante Aussage einfach nicht ausreichen, oder anders gesagt: Hier wird vermutlich Zufall abgebildet – in anderen Verbrechenskategorien lässt das Bild auf eine größere Fallzahl und damit bessere Aussagen schließen.

„Gurus wie Rolf Hichert haben in den letzten Jahren in deutschen Zeitungen und Magazinen Spuren hinterlassen."

Entwurf eines besseren Vorschlags

Abbildung 2: Stefan Sexl schlägt eine alternative Visualisierung der Daten vor.

In diesem Vorschlag wird die Information bereits deutlich besser kommuniziert – aber es geht sicher noch besser. Haben Sie Lust einen Vorschlag einzureichen? Die Basisdaten finden Sie hier zum Download. BI Scout und der Autor freuen sich über alternative Ansätze und prämieren den Besten mit einer Kiste guten Rotwein – und stellen die eingereichten Vorschläge im Rahmen dieser Serie vor.

Kontakt BI Scout: info@bi-scout.com

Click here to play the video.

„Chart Doktor" Evelyn Münster hat die BI Scout Challenge angenommen und analysiert die Grafik von Spiegel Online in ihrem YouTube Video.


Stefan Sexl ist seit fast 30 Jahren im Markt für Business Intelligence und Analytics tätig, unter anderem als langjähriger Vorstand und Geschäftsführer der MIS AG, Darmstadt und Gründer der pmOne AG, München. Er berät Wachstumsunternehmen im Software- und Dienstleistungsbereich bei Strategie, Marketing und Vertrieb und beobachtet und analysiert als Fellow des BARC Instituts, Würzburg den Markt für BI und Analytics. Kontakt: LinkedIn

Stefan Sexl

Ressourcen für Business Intelligence, Analytics & Big Data

Hier können Sie sich für den BI Scout Newsletter eintragen

Vielen Dank, Sie erhalten in Kürze eine Email zur Anmeldebestätigung.

BI & Big Data Events

Eventkalender anzeigen