Statistisch signifikante Fehler in der Wissenschaft

Vorlesen

Nachkommastellen unter fünf rundet man ab, Ziffern ab fünf rundet man auf. So lernt es jedes Schulkind im Mathematikunterricht. Aber nicht jeder Wissenschaftler scheint diese grundlegende Regel zu beherrschen. Das ist eines der Ergebnisse einer Analyse wissenschaftlicher Veröffentlichungen, die Emili Garcia-Berthou und Carles Alcaraz von der Universität Girona jetzt in der Fachzeitschrift Medical Research Methodology (Bd. 4, S. 13) vorstellen.

Ein wesentlicher Bestandteil aller wissenschaftlicher Forschungen ist die Auswertung von Daten. Das können Messergebnisse eines physikalischen Experimentes oder Untersuchungsergebnisse von Teilnehmern einer medizinischen Testreihe sein. Es liegt in der Natur der Sache, dass neue Forschungsergebnisse nicht immer eindeutig sind. In der Physik kann dies daran liegen, dass neue Experimente oft an der Grenze der möglichen Messgenauigkeit durchgeführt werden. In der Medizin ist ein Grund, dass nicht alle Menschen in gleicher Weise auf ein neues Medikament oder eine neue Therapie reagieren. Umso wichtiger ist eine saubere statistische Auswertung der Daten.

Die beiden spanischen Wissenschaftler haben nun stichprobenartig 63 statistische Ergebnisse, die in der Fachzeitschrift British Medical Journal veröffentlicht wurden, und 181 Ergebnisse aus Nature untersucht. Insbesondere überprüften sie dabei Unstimmigkeiten bei der Berechnung des statistischen Signifikanzwertes. Diese auch P-Wert genannte Zahl gibt an, wie wahrscheinlich es ist, dass man sich irrt, wenn man das erhaltene Ergebnis für repräsentativ, also allgemeingültig, erklärt. Die Irrtumswahrscheinlichkeit ist klein, wenn P fast Null ist. Ein Wert, der kleiner als 0,01 ist, gilt als statistisch signifikant.

Das Ergebnis der Spanier: In etwa elf Prozent der Fälle gab es Unstimmigkeiten zwischen dem P-Wert und den anderen in der jeweiligen Veröffentlichung angegebenen statistischen Werten. In einigen Fällen konnten die spanischen Forscher den Fehler ausfindig machen. So war in einer Veröffentlichung beispielsweise einfach eine Null vergessen worden: Statt des sich aus den anderen statistischen Zahlen ergebenden P-Wertes von 0,0014 war ein Wert von 0,014 angegeben worden.

Eine weitere Auswertung der Spanier zeigt, dass einige Wissenschaftler offenbar die mathematischen Rundungsregeln nicht kennen. Die beiden Forscher ermittelten die jeweils letzte Ziffer von insgesamt 610 P-Werten. Nach Benfords Gesetz sind zwar die Anfangsziffern von Dezimalzahlen nicht gleichverteilt ? die Wahrscheinlichkeit einer 1 als erste Ziffer einer Zahl beträgt 30,1 Prozent, die einer 9 dagegen nur 4,6 Prozent, aber ab der dritten Stelle beträgt die Wahrscheinlichkeit für das Auftreten der Ziffern 0 bis 9 ziemlich genau jeweils zehn Prozent.

Eine derartige Gleichverteilung sollte man auch bei den letzten Nachkommaziffern der P-Werte erwarten. Doch die Spanier fanden eine Untergewichtung insbesondere der Ziffern 4 und 9. Die naheliegende Erklärung: Viele Menschen ? darunter offenbar auch Wissenschaftler, die es eigentlich besser wissen sollten ? neigen dazu, vor Vielfachen von 5 falsch zu runden. Statt beispielsweise 2,38 auf 2,4 aufzurunden, wie es korrekt wäre, runden sie auf 2,5 auf, weil es einfach “netter” aussieht.

Halbwegs beruhigend ist die Aussage der Spanier, dass nur vier Prozent der Fehler in den statistischen Auswertungen zu einer fehlerhaften Deklarierung eines nicht signifikanten Ergebnissen als signifikant führen. Trotzdem scheuen sich Garcia-Berthou und Alcaraz nicht deutlicher Worte: “Auch wenn ein Fehler die Gesamtaussage einer wissenschaftlichen Studie nicht beeinflusst, so spricht er doch für eine schlampige statistische Auswertungspraxis.”

Axel Tillemans

Zurück zur Startseite