Anzeige
Anzeige

Wahrig Wissenschaftslexikon

Blasenentzündung

Anzeige

bild der wissenschaft | Aktuelles Heft

Anzeige

Aktueller Buchtipp

Sonderpublikation in Zusammenarbeit  mit der Baden-Württemberg Stiftung
Jetzt ist morgen
Wie Forscher aus dem Südwesten die digitale Zukunft gestalten

Wissenschaftslexikon

Die Gastautorinnen Lydia Müller und Maria Staudte haben sich, im Rahmen von CLARIN-D, unter anderem mit der Transparenz wissenschaftlichen Arbeitens und inbesondere mit der Kommunikation und Reproduktion von Ergebnissen beschäftigt. Es wurde schnell festgestellt, dass aussagekräftige Studien und deren Ergebnisse einen guten Platz in wissenschaftlichen Journalen finden, jedoch Nullresultate, nicht so spektakuläre Ergebnisse oder gar fehlgeschlagene Experimente oft nicht kommuniziert werden. Das macht wissenschaftliche Arbeit intransparent. In diesem Gastbeitrag stellen sie die Idee vor, eine Plattform zu entwickeln und öffentlich anzubieten, um solche Ergebnisse schnell und einfach anderen Wissenschaftlern zur Verfügung zu stellen.

Publikationsdruck und Publication Bias

Der hohe Publikationsdruck im heutigen Wissenschaftsbetrieb führt zum Einen dazu, dass der wissenschaftliche Austausch NUR noch über Publikationen stattfindet, da sie die Währung darstellen, mit der man sich etablieren, positionieren, oder sein Standing festigen kann. Zum Anderen führt der Publikationsdruck zu einer Flut von Papieren, so dass (zu recht) Rufe nach mehr Qualität als Quantität laut werden. Das Peer-review-System stößt an seine Grenzen, denn es kommt kaum hinterher, die große Menge an häufig höchstens durchschnittlichen Papieren seiner Qualitätskontrolle zu unterziehen.

Die teilweise fatalen Auswirkungen der Überforderung des Peer-review-Systems werden immer wieder sichtbar. Sie werden öffentlich und medial diskutiert und schädigen so den Ruf der Wissenschaft. Ein aktuelles Beispiel sind Studien zur Eignung von Malariamedikamenten bei Behandlung von COVID-19. Ergebnis der Studie war, dass es sich nicht eignet und eventuell zu höheren Todesraten und Herzrhythmustörungen führt. Die Publikationen durchliefen das Peer-review und wurden publiziert. Erst nach der Veröffentlichung stellte sich heraus, dass die Daten fehlerhaft oder sogar gefälscht sind. Die Publikation wurde zurückgezogen. Mit anderen Worten, das Peer-Review-System hat versagt. Und dies ist nur der neueste Fall. Dieses Problem ist nicht nur auf Artikel aus der Domaine Medizin, Biologie oder Psychologie beschränkt, sondern ist in jeder Disziplin zu finden, so auch in den Geistes- und Sozialwissenschaften – überhaupt überall, wo Daten erhoben und gesammelt und genutzt werden. Der Fall des Mart Bax zeigt, dass z.B. auch in der Anthropologie bzw. in den Geschichtswissenschaften gefälschte Ergebnisse veröffentlicht werden können. [1]

Eine Lösung könnte darin liegen, nicht jedes Ergebnis publizieren zu müssen — stattdessen nur die wirklich interessanten, überraschenden oder neuartigen Studienreihen als Papier zu veröffentlichen — und die kleineren, manchmal auch nicht so klar zu deutenden Ergebnisse auf anderen Wegen mit den Kollegen zu teilen. Dass man sie teilen sollte, liegt auf der Hand: Auch aus nicht publikationsfähigen Studien kann meist etwas über den Untersuchungsgegenstand oder über die angewandte Methode gelernt werden, was aber vornehmlich für jene relevant ist, die sich konkret mit sehr ähnlichen Themen auseinandersetzen.

Anzeige

Wie also könnte man Ergebnisse, die nicht unbedingt in einer Publikation untergebracht werden müssen/können, mit seinen Kollegen teilen? Aber bitte möglichst einfach, denn Zeit ist ohnehin nie genug vorhanden, und möglichst breit?! Eine mögliche Lösung bietet die Plattform „Null-Results“.[2]

Die Plattform

„Null-Results“ bietet genau die gewünschte Funktionalität. Studien, die keine revolutionären Ergebnisse, aber dennoch nützliche Erfahrungswerte liefern, die können dort über eine Eingabemaske beschrieben und online gestellt werden. Umgedreht kann man natürlich auch über eine Kategorien- oder Stichwortsuche nach Studien zum eigenen Thema oder zur eigenen Methode suchen, während man ein Projekt plant.

Die Plattform ist damit anders als alle bisherigen wissenschaftlichen Medien. Sie soll dem informellen, einfachen Austausch von Informationen dienen und bei Interesse unter Kollegen weitere Nachfragen ermutigen. Das bedeutet, dass der qualitätssichernde, aber aufwendige Peer-Review-Prozess, ja sogar das Manuskriptschreiben, entfällt. Dafür kann man mit einem Beitrag aber auch NICHT die eigene Publikations- oder Zitationsliste verlängern. Die gelisteten Studien wären nicht ohne Weiteres zitierfähig und dienten lediglich dem informellen Austausch.

Um diesen informellen Austausch zu ermöglichen, bietet die Plattform die Möglichkeit, Einträge zu kommentieren und so zu diskutieren. Wenn man so will, kann dies auch als Umkehrung des bis-herigen Vorgehens betrachtet werden: anstatt erst ein Peer-review durchzuführen und im Anschluss zu veröffentlichen, wird erst veröffentlicht und dann ein Peer-review durchgeführt. Anders als beim traditionellen Peer-review können an diesem Prozess vor allem genau die teilnehmen, die ein konkretes Interesse an der Studie haben und sich mit dem Thema bereits beschäftigt haben. Keiner muss, aber jeder kann. Als Konsequenz der Umkehrung von Publikation und Peer-review, sollen und können Einträge aktualisiert, erweitert oder gelöscht werden. Eine angeregte Diskussi-on und viele Änderungen sind in gewisser Weise dann sogar ein Indikator für Relevanz und Qualität eines Eintrags. Es obliegt also wiederum dem Nutzer, auch Einträge kritisch zu betrachten und die Qualität zu bewerten, anstatt blind auf das Peer-Review-System und den guten Ruf des Journals zu vertrauen, in dem der Artikel veröffentlicht wurde.

Kurz nach Start des Blogs erschien in Nature der Aufruf zur “Ten Years Reproducibility Challenge”. Ich habe darüber berichtet und auch zugegeben, dass bei eigener Software nicht immer gut um die Frage nach der Lauffähigkeit nach langer Zeit bestellt ist.

Inzwischen gibt es bereits einige Rückläufer in Form von Veröffentlichungen zu einer ausgewählten Software, die beschreiben in welchem Rahmen Reproduzierbarkeit auch nach > 10 Jahren funktioniert oder nicht – und wenn nicht: warum?

Was ist der Beitrag von Software zu Reproduzierbarkeitskrise?

Zuvorderst steht die Frage im Raum, ob die Ergebnisse, die mit einer Software X auch nach Ablauf von zehn oder mehr Jahren wieder erzielt werden können? Diese Frage ist interessant, weil so enorm viele wissenschaftliche Ergebnisse in der einen oder anderen Form von Software abhängen. Was also ist, wenn die Software von heute in zehn Jahren ihre Ergebnisse nicht mehr reproduzieren kann: Ist dann auch das Ergebnis von heute nicht mehr reproduzierbar? Dies ist selbstverständlich nur ein Aspekt der “Reproduzierbarkeit” – nicht unbedingt im Sinne von “wahrscheinlich ungültige” Resultaten.

Anzeige

Für das “Versagen” der Software von damals kann es eine Reihe von Gründen geben, die uns heute eine Lehre sein können. Alter Code funktioniert kann heute nicht mehr, weil

  • … die Prozessoren andere sind (letztens wollte ich ein statisch kompiliertes 32bit Programm auf aktuellen CPUs ausführen, ohne das ich vorher hin geschaut hätte, geht so natürlich nicht – neu kompilieren hatte bei den obskuren Abhängigkeiten ebenfalls keine Chance; ein anderes Beispiel wäre Code, der zu empfindlich ist bei kleinen numerischen Störungen und mit der größeren Genauigkeit heutiger CPUs nicht klar kommt)
  • …  sich die benötigten Softwarebibliotheken nicht mehr installieren lassen (und niemand vor zehn Jahren an das Archivieren von Containern oder VMs gedacht hat*)
  • … sich die benötigten Softwarebibliotheken zu stark geändert haben (und niemand vor zehn Jahren an das Archivieren von Containern oder VMs gedacht hat und die alten Veröffentlichungen/Releases nicht mehr zur Verfügung stehen)
  • … sich niemand Gedanken über eine gute Installationsroutine Gedanken gemacht hat (und heute niemand das Gefrickel von vor zehn Jahren nachvollziehen kann)
  • … sich niemand die Mühe Gemacht hat gut zu dokumentieren wie man die Software richtig anwendet (bei alter wissenschaftlicher Software nicht selten)
  • … etc. etc. etc.

Kommt das Alles nicht mehr vor? Sind die wissenschaftlichen Communities klüger geworden und haben aus den Fehlern gelernt? Ich glaube bereits vermittelt zu haben, dass einige der Probleme von damals heute noch sehr aktuell sind.

Eine unterhaltsame Beschreibung eines bunten Problemstrausses habe ich in einem anderen Blog gefunden. Um es vorweg zu nehmen: Die Wiederholung für dieses verlinkte Beispiel hat einigermaßen gut funktioniert. Aber die entscheidenden Punkte sind:

      1. es ging nicht um ein 0815-Paper in einem low-impact Journal, sondern um einen potentiell relevanten bioinformatischen Beitrag[Lamichhane et a., 2003].
      2. der Code von damals war “natürlich” nicht versioniert (vgl. mein Beitrag, der das auch beleuchtet).
      3. zu wenig, von dem was zur Nutzung zu wissen ist und was durchgeführt wurde, war dokumentiert. Nur der damalige Autor konnte das nachvollziehen.
      4. die Abhängigkeiten zu best. Softwarepaketen waren nicht transparent.
      5. Code, der nur dem ursprünglichen Autor irgendetwas sagen könnte und selbst der bekennt nun geraten zu haben, als es um den Versuch ging das wieder zum Laufen zu bringen (R-Code):
        temp <- negenes(mydata[,1], mydata[,2], mydata[,3], mydata[,4], n.mcmc=50000, skip=49, return=TRUE, trace=FALSE)
        

Das ist selbstverständlich nur ein Beitrag. Nicht repräsentativ. Doch wenn Ihr Euch mal weitere Veröffentlichungen der “Ten Years Reproducibility Challenge” anschaut, die oben verlinkt sind und wenn ich meine eigene Arbeit betrachte, wo durchaus immer wieder von Nutzern Variablen “mydata” genannt werden, gute Kommentare im Code Mangelware sind und man sich häufig durch Code wühlen muss um zu erfahren, was die eine bestimmte Funktion so für ein Hobby hat, weil jedwede Doku fehlt … da kommt man um die Befürchtung “Das ist vielleicht nicht repräsentativ, aber doch ein nicht von der Hand zu weisendes Problem!” nicht umhin.

Ich erlaube mir mal zwei Zitate aus den bioinformatischen Themen in Re-Science:

  • After some minor corrections and modifications of the original description of the model, we were able to reproduce the original results, confirming the correctness of the original implementation of the model.[Topalidou and Rogier, 2015]

  • … In general, the original model is easily implemented. … However, in some experimental protocols important information is missing[Detorakis, 2016]

Und so geht es weiter … den Rest erspare ich Euch. So weit ich lese, steht da überwiegend: “Wir/ich habe(n) die alte Software irgendwie ans Laufen gebracht. (Oft erfolgreich, manchmal nicht.)” Oder anders gesagt: Die Welt aller möglichen Anwender hätte wohl erhebliche Schwierigkeiten und würde meist scheitern.

Spätestens jetzt sind einige Kommentare provoziert: “In meinem Metier … Und bei uns im Betrieb … ist das anders.” Ja, da mag das “anders” sein und doch ist das irrelevant: Hier geht es um wissenschaftliche Software, mit der Ergebnisse “produziert” wurden. Diese wurden veröffentlicht, die Veröffentlichung als gegebenes Resultat zitiert und diskutiert. Wenn nun jedoch diese Software bereits die (Simulations)-Ergebnisse manchmal nicht und häufig nur in den Händen der Schöpfer funktioniert, dann können die Ergebnisse von Dritten nicht nachvollzogen werden und sind somit definitionsgemäß nicht reproduzierbar. Manche der damals getroffenen Aussagen sind sicherlich im Sinn der damals getroffenen Aussagen gültig – aber für mehr als “Im Zweifel für die Autoren” reicht es nicht.

Andererseits …

… geht es bei der “Ten Years Reproducibility Challenge” vielfach nicht um produktiv eingesetzte Software. Software also, die wieder und wieder in der bioinformatischen Datenanalyse Verwendung findet. Ist damit das Problem des Beitrags zur Reproduzierbarkeitskrise entschärft? In gewisser Weise: Ja, weil vermuten dürfen, dass die vielen Softwarepublikationen und Publikationen, die auf Software basieren nur deshalb nicht reproduzierbar sind, weil niemand die fragliche Software dokumentiert findet und oder installieren kann. Leider hilft selbst dieser Zynismus nicht weiter, denn Publikationen mit Software fragwürdiger Qualität sind immer noch nicht selten.

Und doch, der nächste Artikel wird zeigen: Alte Software ist ein Problem. Und zusammen mit fehlender Info (wie Workflow-Beschreibungen) in wirklich relevanten Veröffentlichungen ein großes …

+++++++++

  • Nicht, dass ich behaupten möchte durch Archivieren virtueller Maschinen (VMs) oder Containern das Problem lösen zu können, aber die Mode ist z. Zt. hartnäckig.

https://scienceblogs.de/rupture-de-catenaire/2020/10/21/zutaten-zur-reproduzierbarkeitskrise-5-alternde-software/?utm_source=rss&utm_medium=rss&utm_campaign=zutaten-zur-reproduzierbarkeitskrise-5-alternde-software

Kom|po|si|tum  〈n.; –s, –si|ta; Sprachw.〉 aus zwei selbstständigen, sinnvollen Teilen zusammengesetztes Wort, z. B. ”Schreibtisch“; Ggs Simplex; ... mehr

» im Lexikon stöbern
Anzeige
Anzeige