Illustration: Jens Bonnke
Peer Review in der Wissenschaft (Illustration: Jens Bonnke)

Gute Forschung muss transparent sein

Wenn Forscher die Arbeit anderer Forscher überprüfen, um die Qualität der Ergebnisse zu beurteilen, hat das einige Vorteile. Oft ist es aber dann schon zu spät. Deshalb sucht die Wissenschaft jetzt nach neuen Wegen der Qualitätskontrolle.

Was macht eigentlich gute Qualität aus? Zentral ist vor allem eines: Verlässlichkeit. Das prognostizierte Wetter sollte möglichst auch eintreffen, der Neuwagen sollte unter gleichen Bedingungen einen möglichst gleichen Bremsweg haben und die Ergebnisse einer wissenschaftlichen Arbeit sollten die gleichen sein, wenn eine andere Forschergruppe die Experimente exakt so wiederholt, wie sie beschrieben wurden. Vor allem in der Wissenschaft ist diese Wiederholbarkeit ein wesentliches Qualitätskriterium.

Demzufolge ist die Prüfung der Wiederholbarkeit auch eine der beiden wesentlichen Qualitätskontrollen in der wissenschaftlichen Forschung (siehe Kasten). Sie funktioniert wie von selbst und wird durchgeführt vom Kollektiv der Forscher: Vor allem, wenn ein Ergebnis für Aufsehen sorgt, etwa weil es besonders ungewöhnlich oder überraschend ist, werden andere Forschergruppen rasch versuchen, es zu replizieren. „Und damit ist eine Qualitätskontrolle der wissenschaftlichen Forschung angelaufen“, sagt Lutz Bornmann, der bei der Max-Planck-Gesellschaft im Stabsreferat für Wissenschafts- und Innovationsforschung sowie Forschungsanalyse unter anderem im Bereich Forschungsevaluation forscht. Kommen die allermeisten anderen Forschergruppen zu dem gleichen Ergebnis, dann muss die Qualität zumindest in Bezug auf die Replizierbarkeit hoch sein. Umgekehrt fliegt früher oder später alles auf, was qualitativ minderwertig ist und keine zuverlässigen Ergebnisse liefert.

Klingt erst einmal gut, aber es gibt dabei ein Problem. Es liegt im früher oder später, genauer: im später. Denn diese Art der Qualitätskontrolle – das Prüfen auf Replizierbarkeit – setzt dort an, wo eigentlich schon alles in der Welt ist. Arbeitsgruppen aus aller Welt arbeiten mit veröffentlichten Ergebnissen. Dabei geht es nicht nur ums Nachprüfen – die Erkenntnisse werden oft auch als Grundlage für weitere Experimente genommen, die auf dem neuen vermeintlichen Wissen fußen. Stellt sich das Wissen später als falsch heraus, haben manchmal Tausende Wissenschaftler umsonst gearbeitet. „Eine enorme Ressourcenverschwendung“, sagt Ulrich Dirnagl, Direktor der Abteilung Experimentelle Neurologie an der Charité Universitätsmedizin Berlin. 

Forscher prüfen Forscher

Das sogenannte Peer-Review von Fachjournals setzt immerhin früher an, noch vor der Veröffentlichung. Der Mechanismus ist simpel: Wenn man eine Forschungsarbeit erstellt und Vorgehen und Ergebnisse aufgeschrieben hat, dann reicht man das Zusammengetragene, das Paper, bei Fachjournals ein. Dort gibt man die Arbeit an Wissenschaftler vom gleichen Fachbereich weiter, die als Peer-Reviewer die Qualität und Relevanz der Arbeit begutachten. Sie lesen die Arbeit, beurteilen die Methodik, die Ergebnisse, die Diskussion. Je nach Ergebnis erhält der Forscher eine Zu- oder Absage zur Veröffentlichung.

Aber wenn der Forscher seine Arbeit aufgeschrieben hat, sind die Experimente in der Regel bereits abgeschlossen. Selbst wenn nur sehr selten Ergebnisse bewusst gefälscht werden, so kann man doch davon ausgehen, dass die Arbeit auf dem Papier in einigen Fällen ein Stück weit „frisiert“ wird. Das kann schon durch das Weglassen bestimmter Teile des Versuchs geschehen. Angenommen, jemand hat zweimal das gleiche Experiment gemacht, aber nur einmal das Ergebnis erhalten, das veröffentlichungswürdig ist. Dann kann es schon vorkommen, dass mancher Forscher das zweite Ergebnis einfach unterschlägt. Ulrich Dirnagl von der Charité vergleicht es mit einer Begutachtung eines Autos von außen: „Wenn man um ein Auto herumgeht und es sich genau anschaut, dann fallen einem Kratzer oder ein fehlender Seitenspiegel auf. Aber man weiß nicht, ob drinnen alles in Ordnung ist, im Motor, im Innenraum.“ So gehe es in etwa einem Peer-Reviewer. Eigentlich ist also auch die Kontrolle durch Peer-Review zu spät dran.

Methodik und Vorgehen prüfen

Deshalb will Dirnagl alles ein ganzes Stück weit vorziehen, nämlich noch vor die eigentlichen Experimente. Derzeit versucht er, im Rahmen eines Forschungsprojektes Qualitätskriterien zu entwickeln für wissenschaftliches Arbeiten. Im Rahmen dieser Kriterien soll der Wissenschaftler unter anderem bereits vor der experimentellen Phase seine Methodik und sein Vorgehen festlegen und idealerweise Kollegen zum Review vorlegen, die dann die Qualität der geplanten Arbeit bewerten. Damit gäbe es eine Qualitätskontrolle vor und während der eigentlichen Forschungsarbeit – und Fehler würden nicht mehr verschleppt, sondern von vornherein vermieden.

Das sind hehre Ziele; doch in der Realität dürfte es schwer werden, diese Verbesserung der Qualitätskontrolle breitflächig umzusetzen. Denn für jede Kontrolle braucht es eben auch kompetente Kontrolleure, also Wissenschaftler vom Fach. Verbringen diese aber mehr Zeit mit der Qualitätskontrolle der Arbeiten ihrer Kollegen, bleibt ihnen selbst weniger Zeit zum Forschen. Eine vor wenigen Wochen veröffentlichte Untersuchung warnt bereits vor einer Art „Reviewer-Fatigue“, also einer Müdigkeit der Qualitätskontrolleure. Während der Studie zufolge 2013 im Schnitt nur 1,9 Anfragen versendet werden mussten, um einen Wissenschaftler als Gutachter zu gewinnen, waren es 2017 schon 2,4.

Düstere Paralleluniversen

Illustration: Jens Bonnke
Illustration: Jens Bonnke

Das Peer-Review-System kostet die Beteiligten zwar Zeit; diese aufzuwenden lohnt sich aber offenbar auch, da Peer-Reviewing eine wichtige Filterfunktion zu erfüllen scheint. So ist die Zahl der Forschungsarbeiten weltweit noch höher als die der Veröffentlichungen in Fachjournals, die mit Peer-Reviewern arbeiten. Und das, was ohne Peer-Reviews veröffentlicht wird, ist in der Regel qualitativ kaum ernst zu nehmen.

​Sogenannte Raubverlage bieten gegen Bezahlung die Veröffentlichung von Beiträgen in wissenschaftlich anmutenden Journals an. Die unglaubwürdigen Fachmagazine bilden mittlerweile ein kleines, düsteres Paralleluniversum zum Wissenschaftsbetrieb, das man durchaus mit „Fake Science“ beschreiben kann. Für Bornmann öffnet sich hier ein Abgrund: „Dieser Bereich des wissenschaftlichen Publizierens ist vollkommen unseriös und sollte nicht unterstützt werden.“ Wegen der neuen Journals steht die Wissenschaft in der Öffentlichkeit gleich in mehrerlei Hinsicht unter Beschuss: Da sind einmal die zu Recht aufgeregten Berichte in der Süddeutschen Zeitung und in der ARD darüber, dass Wissenschaft ihre Glaubwürdigkeit verliert. Und dann werden tatsächlich auch noch die Fakten verdreht, indem falsche Studien etwa über Impfschäden verbreitet werden. Die Folge von alldem: Die Forschung, die in der Gesellschaft für hohe Qualität und Verlässlichkeit steht, verliert enorm schnell an Strahlkraft.

Die wichtigste Währung in der Wissenschaft sind immer noch die Publikationen.
Andrea Frank (David Ausserhofer)
Andrea Frank (David Ausserhofer)

Andrea Frank

Programmleiterin Forschung, Transfer und Wissenschaftsdialog beim Stifterverband

Dass es überhaupt so weit kommen konnte, liegt an der Fokussierung des Systems Wissenschaft auf die Zahl der Veröffentlichungen: „Die wichtigste Währung in der Wissenschaft sind immer noch die Publikationen. Dieser Druck hat überhaupt erst dazu geführt, dass neue Journals ohne Peer-Review und mit Publikation gegen Bezahlen entstanden sind“, sagt Andrea Frank vom Stifterverband für die Deutsche Wissenschaft. 

Offene Wissenschaft

Illustration: Jens Bonnke
Illustration: Jens Bonnke

Es gibt heute aber auch andere Wege, wissenschaftliche Ergebnisse zu publizieren. Unter dem Stichwort Open Science beispielsweise geht es darum, wissenschaftliche Erkenntnisse, Forschungsdaten und Publikationen im Web öffentlich zugänglich zu machen – ohne Bezahlhürden von Verlagen.

Um die Qualität dieser für jeden einsehbaren Veröffentlichungen zu beurteilen, breitet sich zurzeit das Konzept der sogenannten Altmetriken aus. Altmetriken versuchen, ein möglichst breites Spektrum an Reaktionen im Web auf eine wissenschaftliche Veröffentlichung zu erschließen und zu quantifizieren. Dabei wird unter anderem erfasst, wie oft ein Artikel aufgerufen und heruntergeladen, diskutiert, in sozialen Medien gelikt oder verlinkt wird. Hier zählt also nicht mehr bloß die Zahl der Veröffentlichungen oder der Zitierungen, die meist eh erst nach Monaten oder Jahren wirklich aussagekräftig sind.

Mit diesen Methoden lässt sich einem weiteren Problem der Peer-Review-Verfahren begegnen: Sogenannte Nullresultate, also Arbeiten, die nicht das erhoffte Ergebnis erzielen und damit oft als nicht veröffentlichungswürdig angesehen werden, verschwinden oft kommentarlos. Dabei seien sie für den Fortschritt eigentlich enorm wichtig, sagt Frank: „Das vermehrte Publizieren und Austauschen über solche Nullresultate würde Ressourcen schonen und die Erkenntnisdichte in der Wissenschaft erhöhen. Und in Kombination mit neuen Ansätzen wie Altmetriken und Open-Source-Veröffentlichungen auch die Qualität.“

Die drei Phasen der Qualitätskontrolle

1. Vor der Forschung: Forschungsstandards

In manchen Wissenschaftsfeldern gibt es gewissermaßen Leitlinien für die Forschung. So sind doppelt verblindete Studien – sofern möglich – bei der Medikamentenentwicklung mittlerweile Pflicht für eine Veröffentlichung. Doch da die Qualitätskontrolle hier bislang eine Selbstkontrolle der Wissenschaftler ist, kann diese Art der Kontrolle aktuell noch nicht wirklich als Qualitätskontrolle bezeichnet werden.

2. Vor der Veröffentlichung: Peer-Review

Fast alle Journals, die etwas auf ihren Ruf geben, haben heute ein Peer-Review-System, in dem Experten die eingereichten Arbeiten von Fachkollegen begutachten und – oft unter Auflagen für Überarbeitungen, die die Qualität steigern sollen – für die Veröffentlichung freigeben oder eben wegen mangelnder Qualität die Veröffentlichung ablehnen. Grundsätzlich eine veritable Qualitätskontrolle, die allerdings nicht alles bemerkt und auch ihre Schwächen aufweist. Eine davon: Die Peer-Reviewer können nur das eingereichte Aufgeschriebene begutachten, im Labor selbst waren sie nicht dabei.

3. Nach der Veröffentlichung: Prüfung auf Replizierbarkeit

Je nach Relevanz und Überraschungsgrad der Ergebnisse versuchen mehr oder weniger Forschungsgruppen, die Ergebnisse zu replizieren. Mit Abstand die effizienteste Qualitätskontrolle – und eine Art unbestechliche Selbstkontrolle der Wissenschaft. Jeder Fehler, der sich bei qualitativ minderwertigen Arbeiten eingeschlichen hat, wird so über kurz oder lang korrigiert. Das Problem dabei ist, dass die Kontrolle erst relativ spät erfolgt. So kann es sein, dass wegen fehlerhafter Arbeiten mit vermeintlich vielversprechenden, aber letztlich falschen Ergebnissen ein ganzer Teilbereich über Jahre in eine Richtung forscht, die in eine Sackgasse führt.