Die beiden spanischen Wissenschaftler haben nun stichprobenartig 63 statistische Ergebnisse, die in der Fachzeitschrift British Medical Journal veröffentlicht wurden, und 181 Ergebnisse aus Nature untersucht. Insbesondere überprüften sie dabei Unstimmigkeiten bei der Berechnung des statistischen Signifikanzwertes. Diese auch P-Wert genannte Zahl gibt an, wie wahrscheinlich es ist, dass man sich irrt, wenn man das erhaltene Ergebnis für repräsentativ, also allgemeingültig, erklärt. Die Irrtumswahrscheinlichkeit ist klein, wenn P fast Null ist. Ein Wert, der kleiner als 0,01 ist, gilt als statistisch signifikant.
Das Ergebnis der Spanier: In etwa elf Prozent der Fälle gab es Unstimmigkeiten zwischen dem P-Wert und den anderen in der jeweiligen Veröffentlichung angegebenen statistischen Werten. In einigen Fällen konnten die spanischen Forscher den Fehler ausfindig machen. So war in einer Veröffentlichung beispielsweise einfach eine Null vergessen worden: Statt des sich aus den anderen statistischen Zahlen ergebenden P-Wertes von 0,0014 war ein Wert von 0,014 angegeben worden.
Eine weitere Auswertung der Spanier zeigt, dass einige Wissenschaftler offenbar die mathematischen Rundungsregeln nicht kennen. Die beiden Forscher ermittelten die jeweils letzte Ziffer von insgesamt 610 P-Werten. Nach Benfords Gesetz sind zwar die Anfangsziffern von Dezimalzahlen nicht gleichverteilt ? die Wahrscheinlichkeit einer 1 als erste Ziffer einer Zahl beträgt 30,1 Prozent, die einer 9 dagegen nur 4,6 Prozent, aber ab der dritten Stelle beträgt die Wahrscheinlichkeit für das Auftreten der Ziffern 0 bis 9 ziemlich genau jeweils zehn Prozent.
Eine derartige Gleichverteilung sollte man auch bei den letzten Nachkommaziffern der P-Werte erwarten. Doch die Spanier fanden eine Untergewichtung insbesondere der Ziffern 4 und 9. Die naheliegende Erklärung: Viele Menschen ? darunter offenbar auch Wissenschaftler, die es eigentlich besser wissen sollten ? neigen dazu, vor Vielfachen von 5 falsch zu runden. Statt beispielsweise 2,38 auf 2,4 aufzurunden, wie es korrekt wäre, runden sie auf 2,5 auf, weil es einfach “netter” aussieht.
Halbwegs beruhigend ist die Aussage der Spanier, dass nur vier Prozent der Fehler in den statistischen Auswertungen zu einer fehlerhaften Deklarierung eines nicht signifikanten Ergebnissen als signifikant führen. Trotzdem scheuen sich Garcia-Berthou und Alcaraz nicht deutlicher Worte: “Auch wenn ein Fehler die Gesamtaussage einer wissenschaftlichen Studie nicht beeinflusst, so spricht er doch für eine schlampige statistische Auswertungspraxis.”