In einem Artikel des renommierten Fachmagazins Science appellieren die beiden Experten Derek Ruths von der McGill University in Montreal und Jürgen Pfeffer von der Carnegie Mellon University in Pittsburgh für mehr wissenschaftliche Korrektheit: Informationen aus sozialen Medien hafteten immer gewisse Verzerrungseffekte an. Forscher müssten deshalb Mittel und Wege finden, diese zu korrigieren oder zumindest die eingeschränkte Aussagekraft ihrer Daten anerkennen. Viele tun dies aber offensichtlich nicht.
Laut Pfeffer und Ruths ist das Problem von nicht unbedeutendem Ausmaß. Jährlich werden tausende Studien veröffentlicht, deren Ergebnisse ausschließlich auf Daten aus Twitter und anderen sozialen Medien beruhen. Das scheint kaum verwunderlich. Schließlich eröffnet sich Wissenschaftlern mit diesen Quellen ein nie zuvor dagewesener Datenpool: Angefangen von persönlichen Daten wie Geburtsjahr, Geschlecht und Job, bis hin zu Meinungen zu bestimmten Themen oder unsere grundsätzliche Weltanschauung – vieles, was wir denken und tun, präsentieren wir in sozialen Netzwerken auf einem gläsernen Tablett. Doch der Trend Big Data bringt nicht nur Vorteile: „Viele Forscher hoffen fälschlicherweise, sie könnten Verzerrungen und Verfälschungen ausgleichen, wenn ihr Datensatz nur groß genug ist“, äußert sich Pfeffer.
Nicht repräsentativ
Was halten die Leute von E-Zigaretten? Wie kommunizieren sie ihre Ängste? Hätte man die Proteste des arabischen Frühlings vorhersehen können? Nur auf den ersten Blick seien soziale Medien uneingeschränkt geeignet dafür, diese und ähnliche Fragen zu beantworten. Pfeffer und Ruths nennen gleich mehrere Aspekte, warum Daten aus solchen Erhebungen mit Vorsicht zu genießen sind.
Zum einen sind sie nicht repräsentativ: Forscher versuchen oft, ihre Ergebnisse zu generalisieren, um eine Aussage für die gesamte Bevölkerung treffen zu können. Das ist mit Daten aus sozialen Medien nur bedingt möglich, weil die Nutzer dieser Dienste kein Abbild der Gesellschaft darstellen. So wird etwa Instagram in den USA vor allem von jungen Menschen zwischen 18 und 19 Jahren genutzt, insbesondere von Afroamerikanern und Latinos. Pinterest dominieren hingegen 25- bis 34-jährige Frauen, die über ein durchschnittliches Einkommen von 100.000 US-Dollar verfügen.
Undurchschaubare Algorithmen und falsche Accounts
Während solche Tatsachen für jeden Forscher immerhin noch selbst erkennbar sein könnten, kann manche Frage zum Daten-Sampling von einem Außenstehenden hingegen gar nicht beantwortet werden. Denn soziale Dienste nutzen firmeneigene Algorithmen, mit denen sie ihre Datenströme kreieren und filtern – und ändern diese auch gerne mal ohne Vorwarnung. Wer als Wissenschaftler nicht zum ausgewählten Kreis derer gehört, die über die Funktionsweise der Seite genau Bescheid wissen, kennt über die Herkunft seiner Daten also im Zweifel nur die halbe Wahrheit.
Ein weiteres Problem sind die vielen Accounts, die nicht zu einer natürlichen Person gehören: So kommunizieren etwa viele PR-Experten im Auftrag von Stars und Sternchen, vertreten Politiker oder gleich ganze Unternehmen. Und manches Profil ist schlicht ein Fake, manch Follower für teures Geld gekauft. Zwar sind die Betreiber der Dienste in der Regel bemüht, falsche Accounts zu finden und zu löschen. Für einen Wissenschaftler allein dürfte es jedoch schwierig sein, jeden fragwürdigen Account in seinem Datensatz aufzuspüren.
Für einige dieser Probleme könnten bewährte Lösungen aus anderen Wissenschaftsfeldern, wie der Epidemiologie oder der Statistik, zur Rate gezogen und gegebenenfalls angepasst werden. In anderen Fällen brauche es neue Techniken und Standards, um mit Verzerrungen sinnvoll umzugehen, kommentieren die beiden Informatiker. „Vor allem aber bedarf es eines gesteigerten Bewusstseins dafür, was man eigentlich genau analysiert, wenn man mit Daten aus sozialen Medien arbeitet“, schließen sie ihren Aufsatz. Der alte Sinnspruch „Kenne deine Daten“, sei auch in diesem Kontext noch immer ein guter Rat.