Anzeige
1 Monat GRATIS testen, danach für nur 9,90€/Monat!
Startseite »

Das Datenlabor

Astronomie|Physik Gesellschaft|Psychologie

Das Datenlabor
Für eine aussagekräftige Statistik braucht es weit mehr, als Menschen zu befragen und ihre Antworten in den Computer einzugeben. Die Daten müssen zuvor sorgfältig und zuverlässig aufbereitet werden.

Auf den ersten Blick sieht alles ganz einfach aus: Bei der Langzeitstudie SOEP befragen wir repräsentativ ausgewählte Menschen, setzen die Antworten in Zahlen um und werten sie anschließend mithilfe des Computers aus. Daraus entstehen dann Tabellen zum Durchschnittseinkommen aller Bundesbürger oder Prozentangaben, wie häufig Fragen mit „ja“ oder „nein“ beantwortet wurden. Doch es ist wesentlich komplizierter. Denn bei allen Erhebungen müssen die Daten zuerst aufbereitet werden. Und das ist eine Wissenschaft für sich. Deshalb sind Survey-Statistiker heute weltweit gefragt wie nie zuvor.

Der Prozess der Datenaufbereitung lässt sich mit den Arbeitsschritten in einem Labor vergleichen. Zunächst müssen Proben ausgewählt werden, die alle wichtigen Eigenschaften des Untersuchungsobjekts aufweisen, bei unserem Survey sind das beispielsweise Risikofreude oder die Höhe des Einkommens. Vor der Analyse muss das Material aufbereitet – also gereinigt – werden, um so gut wie möglich Messfehler zu beseitigen. Im Rahmen von SOEP sind die Menschen in Deutschland Dreh- und Angelpunkt der Untersu- chung, und die Messungen erfolgen an einer repräsentativen Stichprobe.

VOm Kleinen zum Ganzen

Doch wie kommt eine solche Stichprobe zustande? Lockt man mögliche Probanden mit Zeitungsanzeigen, die ein kleines Honorar in Aussicht stellen, machen nur diejenigen mit, die Zeitung lesen und solche Geschenke mögen. Das ist aber alles andere als repräsentativ. Die Stichprobe soll ja die Allgemeinheit im Kleinen widerspiegeln. Deswegen werden bei sozialwissenschaftlichen Qualitätsstudien die Teilnehmer per Zufall ausgewählt. Zum Beispiel lässt man jeden Hundertsten aus den Melderegistern von zuvor per Computer ausgelosten Gemeinden und Städten herausfiltern. Das Problem dabei: Nicht alle Ausgewählten wollen sich an einer Befragung beteiligen. In Deutschland macht inzwischen nur noch weniger als die Hälfte bei solchen Befragungen mit. Diese Menschen unterscheiden sich zwar nur wenig von der übrigen Bevölkerung, aber trotzdem ist es notwendig, ihre Daten zu gewichten beziehungsweise hochzurechnen.

Dafür vergleichen wir zentrale Antworten der Befragten mit bekannten Eckwerten aus amtlichen Registern und Erhebungen. Ein Beispiel: Wenn wir feststellen, dass bei der Befragung weniger Männer als Frauen mitgemacht haben, und dieses Verhältnis nicht dem Ergebnis der Volkszählung entspricht, dann gewichten wir die Antworten der Männer höher und die der Frauen niedriger. Erst dann stimmen beide Anteile in der statistischen Analyse.

Anzeige

Das Gleiche gilt für das Alter, den Bildungsabschluss, die Haushaltsgröße oder die geografische Verteilung. Wenn eine Vielzahl solcher Faktoren gleichzeitig berücksichtigt werden muss, ist jeder Taschenrechner überfordert. Solche Aufgaben kann man nur mit komplexen Computeralgorithmen bewältigen.

Bei einer Panel-Studie wie dem SOEP, für die über einen längeren Zeitraum dieselben Menschen jedes Jahr erneut befragt werden, kommt ein weiteres Problem hinzu: Von Erhebung zu Erhebung machen immer weniger Leute mit. Und dieser Schwund ergibt sich nicht zufällig – dann wäre keine Umgewichtung notwendig –, sondern er verläuft systematisch oder „selektiv“, wie die Statistiker sagen. Alleinlebende etwa bleiben einem Panel weniger häufig treu als Menschen in größeren Haushalten.

Zum Glück kann sich eine Panel-Studie am eigenen Schopf aus dem Wasser ziehen. Denn über die Leute, die nicht mehr mitmachen wollen, ist ja aus vorherigen Befragungswellen etliches bekannt – etwa das Alter, der Familienstand, das Einkommen und die Persönlichkeitsstruktur. Dieses Wissen fließt in die Gewichtung von Personengruppen ein, deren Anteil in der Stichprobe nicht mehr ausreichend repräsentativ für die Gesamtbevölkerung ist. Das ist schon der Fall, wenn die Abweichung etwas mehr als einen Prozentpunkt beträgt.

Dabei nutzen wir auch Informationen, die sich bei der Befragung ergeben – im Fall des SOEP kommen sie vom Institut Infratest Sozialforschung. Wenn zum Beispiel ein Haushalt umzieht, erhöht sich die Wahrscheinlichkeit, dass er nicht mehr mitmacht. Man kann diese Häufigkeit ausrechnen und den umgezogenen Haushalten, die weiter teilnehmen – das sind im Schnitt etwa 90 Prozent – ein höheres Gewicht geben. Genauer gesagt: Das ursprüngliche Gewicht wird mit 1/0,9 = 1,1111… multipliziert.

Damit ist die Arbeit der Survey-Statistiker noch nicht beendet. Denn viele Teilnehmer beantworten nicht alle Fragen, besonders wenn es um Einkommen und Vermögen geht. Will man nicht einfach alle Fragebögen mit einigen unvollständigen Angaben ignorieren – pro Erhebungswelle sind das bis zu 20 Prozent –, muss man fehlende Angaben imputieren. Das heißt, wir füllen die Lücken mit den Antworten anderer Befragter, die ein ähnliches Profil haben. Das ist mit dem Computer einfach zu machen und schadet niemandem, denn die Datensätze des SOEP sind vollständig anonymisiert.

AufWendige armutsberechnung

In den ersten Jahren der Auswertung von SOEP-Daten konnten Statistiker solche Imputationen ziemlich einfach durchführen. Wenn zum Beispiel Angaben zu Zinserträgen fehlten, wurde der Mittelwert der Zinserträge eingesetzt, der von allen anderen Befragten bekannt war. Dadurch war der Fehler bei der Auswertung deutlich kleiner, als wenn der fehlende Wert einfach Null geblieben wäre. Aber wenn jede einzelne Imputation nur anhand des Mittelwerts erfolgt, wird die Streuung der Zinserträge unterschätzt, da nicht auf jeden Befragten exakt der Mittelwert zutrifft – manche haben mehr, manche weniger.

Diese Vernachlässigung der Streuung führt nach Tausenden von Imputationen zum Beispiel zu einem Fehler bei der Berechnung der Einkommensarmut. Sie fällt zu gering aus, wenn statt kleiner Einkommen immer nur Mittelwerte eingesetzt werden. Deswegen haben die Survey-Statistiker die Imputationsmethoden immer mehr verfeinert. Dies ist nicht zuletzt dank gestiegener Computerkapazitäten und neuer Algorithmen gelungen, die im SOEP-Startjahr 1984 niemand erahnen konnte.

Jetzt werden nicht erst bei der Analyse Mittelwerte zugewiesen, sondern für zig verschiedene Bevölkerungsgruppen werden Angaben „gedoppelt“. Das heißt, für eine fehlende Angabe duplizieren wir eine per Zufallsgenerator ausgewählte Angabe, die von einer im Detail vergleichbaren Person stammt. Dadurch wird automatisch nicht nur der Mittelwert, sondern auch die Streuung der Angaben im Datensatz richtig widergegeben. Es ist schon viel statistisches Know-how nötig, um das Ganze hieb- und stichfest zu machen. ■

von Gert G. Wagner

Ohne Titel

Wie der Zensus 2011 ergab, sind 49 Prozent der Menschen in Deutschland männlich. Damit eine Befragung repräsentativ ist, muss man die Stichprobe entsprechend gewichten. Falls zum Beispiel der Anteil der Männer darin nur 30 Prozent beträgt, bekommt jeder Mann (rot) eine Gewichtung von 49/30 = 1,6333… und jede Frau (blau) eine von 51/70 = 0,7285…

Anzeige

Wissenschaftsjournalist Tim Schröder im Gespräch mit Forscherinnen und Forschern zu Fragen, die uns bewegen:

  • Wie kann die Wissenschaft helfen, die Herausforderungen unserer Zeit zu meistern?
  • Was werden die nächsten großen Innovationen?
  • Was gibt es auf der Erde und im Universum noch zu entdecken?

Hören Sie hier die aktuelle Episode:

Aktueller Buchtipp

Sonderpublikation in Zusammenarbeit  mit der Baden-Württemberg Stiftung
Jetzt ist morgen
Wie Forscher aus dem Südwesten die digitale Zukunft gestalten

Wissenschaftslexikon

Ei|chen|wick|ler  〈m. 1; Zool.〉 zu den Wicklern gehörender grüner Kleinschmetterling, dessen Raupen durch Kahlfraß an Eichen sehr schädlich werden können: Tortrix viridana

anheu|ern  〈V.; hat〉 I 〈V. t.〉 jmdn. ~ 1 〈Mar.〉 für Schiffsdienste einstellen, anwerben 2 〈umg.〉 engagieren, einstellen … mehr

♦ Per|spek|ti|ve  〈[–v] f. 19〉 1 scheinbare Verkürzung u. scheinbares Zusammentreffen der in die Raumtiefe laufenden parallelen Strecken in einem od. mehreren Punkten (Fluchtpunkt) 2 Darstellung des Raumes u. räumlicher Gegenstände auf einer ebenen Bildfläche mit räumlicher Wirkung … mehr

» im Lexikon stöbern
Anzeige
Anzeige
Anzeige