Die Fragezeichen hinter Big Data

Big Data - gut oder schlecht? (Foto: DavideBalosetti/iStock)
Big Data - gut oder schlecht? (Foto: DavideBalosetti/iStock)

Die Auswertung großer Datensätze ist in vollem Gang – und ebenso die Diskussionen darüber, was man darf und was nicht. Eines der Kernprobleme: Das Zusammenspiel von Algorithmen, Daten und Reaktionen der Nutzer ist so komplex, dass oft niemand mehr die Regeln des Spiels formulieren kann. So kann es ungewollt zu einer "algorithmischen Diskriminierung" kommen. Im Klartext: Statistiken werden verfälscht.

Jede Zeile ist ein Toter – und es sind Hunderttausende. Seit Jahren versucht die amerikanische Stiftung Human Rights Data Analysis Group (HRDAG) aus Listen zu ermitteln, wie viele Menschen in den letzten Jahren in Syrien gestorben sind. "Unsere Arbeit mit Daten aus Syrien begann 2012. Damals forderte uns der UN-Hochkommissar für Menschenrechte auf, vier Listen von Toten zu analysieren, die laufend von Menschenrechtsorganisationen aktualisiert werden", erzählt Megan Price, Statistikerin und Forschungsleiterin der HRDAG. Auf dem diesjährigen Heidelberg Laureate Forum (HLF) – einer großen Mathematik- und Informatik-Konferenz, mitveranstaltet von der Klaus-Tschira-Stifung – gab sie Einblick in ihre Arbeit.

Die Totenlisten führen jeweils zwischen 95.000 und 170.000 Datensätze auf – Name, Sterbedatum, -ort und mitunter auch Beruf oder Geschlecht des Toten. Das Problem: Sie enthalten viele Dubletten und noch mehr Lücken. Man muss daher zwischen den Zeilen lesen. "Zuerst beseitigen wir Tippfehler und filtern die Dubletten heraus. So werden die Listen zu einer einzigen vereinigt, wobei wir aber markieren, wie oft eine Person gelistet wurde", erklärt Price das Vorgehen.

Ballspiel und Totenlisten

Dann kommt die Mathematik: Die Modellierung, mit der die tatsächlich Anzahl Toter abgeschätzt wird. Price beschreibt die Idee so: "Stellen Sie sich zwei Räume vor, einen kleinen und einen sehr großen, und beide total dunkel. Sie öffnen die Tür, werfen einen Ball in beide Räume und zählen, wie oft der Ball an den Wänden abprallt. Im ersten Raum werden Sie viele Ereignisse zählen, im zweiten wenige, die weit auseinander liegen. Ganz analog vermuten wir, dass bei vielen Doppelnennungen weniger Tote in den Listen fehlen als in den Fällen, in denen es nur wenige Überschneidungen zwischen den Quellen gibt."

Ob für Google oder im Dienste der Menschenrechte – die Analyse von "Big Data" hat derzeit Hochkonjunktur. Geht man die wissenschaftlichen Porträts der jungen Wissenschaftler auf dem diesjährigen Heidelberg Laureate Forum durch, dann gehören die Stichworte "Data-Mining" oder "Big Data" zu den meistgenannten – ein Indiz dafür, dass das Thema auch an Universitäten im Trend liegt. Nicht ohne Grund wurde es zum "Hot Topic" der Tagung erhoben.

Algorithmen und Goldnuggets

Doch selbst wenn die Datenmengen heute wohl oft größer ausfallen als vor 20 oder 30 Jahren – die Untersuchung von Daten ist eigentlich seit Jahrzehnten Kerngeschäft der Informatik. Die Grundlagen dafür wurden schon vor Jahrzehnten gelegt.

"In den 1970er-Jahren lagen Algorithmen wie Goldnuggets herum", erzählt Richard Karp, einer der ganz großen Algorithmiker, von den Anfängen. "Es gab damals viele Möglichkeiten, einfache Dinge zum ersten Mal zu entdecken. Ich erinnere mich, als mir zum ersten Mal binäre Suchbäume ins Auge fielen und wie man Daten darin so schnell finden kann. Eigentlich trivial, damals aber einfach nicht allgemein bekannt." Einer der vielen Algorithmen, für die Karp berühmt wurde, ist ein Suchalgorithmus, den er zusammen mit Michael O. Rabin 1987 veröffentlicht hat. Man setzt ihn ein, wenn man schnell alle Vorkommen einer Wortfolge in einem Text finden will.

Teilchenbeschleuniger und Erdbebenfrühwarnsysteme

Neuere Algorithmen behandeln die Daten dagegen oft mit Hilfe von Statistik, um der Datenmenge Herr zu werden. "Ich interessiere mich heute für die Echtzeit-Untersuchung großer Datenströme, die so schnell hereinkommen, dass man mit ihnen sofort umgehen muss, in einer Rückkopplungsschleife. Man muss laufend klassifizieren, was man behalten will und was gelöscht werden soll. Anwendungen dafür gibt es überall: In der Astronomie oder Teilchenphysik, in Erdbebenfrühwarnsystemen, Notfall-Warnsystemen in Städten, in Verkehrsleitsystemen, in Stromnetzen."

Tatsächlich gehören Teilchenphysik und Astronomie zu den größten Datenproduzenten: Das typische Beispiel ist der riesige ATLAS-Detektor im Teilchenbeschleuniger LHC am CERN bei Genf. Er liefert im Durchschnitt fast drei Gigabyte Daten – pro Sekunde. "Es sind da noch immer viele fundamentale algorithmische Probleme zu lösen, beim Clustering und der Klassifikation zum Beispiel oder bei der Daten-Reduktion, der Signalverarbeitung und so weiter", erzählt Karp.

Hier geht's weiter:

Teil 1 Die Fragezeichen hinter Big Data

Teil 2 Ordnung im Datenhaufen hilft Banken

Teil 3 Probleme in der Datenwelt

Teil 4 Was kostet Privatheit?

Reload-Capcha neu laden Text der identifiziert werden soll

Bitte geben Sie zusätzlich noch den Sicherheitscode ein!

Rubriken

 


Harte Nuss
Rätsel: Berühmte Entdecker gesucht

 

Der Buchtipp

Charles Foster wollte nachempfinden, wie es ist, ein Tier zu sein: Der britische Tierarzt erkundete den Wald nicht mehr "menschlich" mit den Augen, sondern "tierisch" mit der Nase. Ein skurriles, unterhaltsames und lehrreiches Buch.

Zu allen Buchtipps


Alle Rechte vorbehalten
Vervielfältigung nur mit Genehmigung der Konradin Mediengruppe