Integritäts-Bewertungsinstrument dringend benötigt
Aus dem Netzwerk Evidenzbasierte Medizin
Umgang mit problematischen Studien in systematischen Übersichtsarbeiten
Von Dr. rer. nat. Birgit Schindler, Claudia Breuer und Prof. Dr. med. Jörg Meerpohl im Auftrag des Netzwerks Evidenzbasierte Medizin e.V. (www.ebm-netzwerk.de)
Aktuelle, methodisch hochwertige systematische Übersichtsarbeiten zu Gesundheitsinterventionen fassen alle relevante Evidenz für eine Fragestellung zusammen und spielen eine entscheidende Rolle bei der Entwicklung von Leitlinienempfehlungen und bei medizinischen Versorgungsentscheidungen. Sie können jedoch auch ungewollt Fehlinformationen verbreiten, wenn fragwürdige oder nicht authentische Studien in die Evidenzbasis einfließen. Verfügbare Instrumente zur Bewertung eingeschlossener Studien, wie beispielsweise das Risk of Bias-Tool (RoB-2) von Cochrane, gehen davon aus, dass die Studien und die berichteten Daten echt sind. Doch wenn Studien manipuliert oder komplett erfunden sind, aber eine hochwertige Methodik vorgeben, kann dies das RoB-2-Tool nicht aufdecken [1].
„Nicht authentische“ Studien werden oft erst dann als solche bekannt, wenn sie von den publizierenden Fachzeitschriften zurückgezogen werden. Die Zahl der zurückgezogenen Forschungsartikel hat im Jahr 2023 die Marke von 10.000 überschritten und damit einen neuen jährlichen Höchstwert erreicht [2]. Die Gründe für die Rücknahme einer Publikation mögen vielfältig sein und von unbeabsichtigten Fehlern und naiven Irrtümern bis hin zu wissenschaftlichem Fehlverhalten reichen. Einer Studie zufolge liegt das Zurückziehen jedoch in den meisten Fällen tatsächlich an wissenschaftlichem Fehlverhalten wie nachgewiesenem oder vermutetem Betrug, doppelten Veröffentlichungen oder Plagiaten [3]. Und Integritätsexperten vermuten, dass die zurückgezogenen Studien nur die Spitze des Eisbergs sind [1].
Paper Mills – gefälschte wissenschaftliche Studien als Geschäftsmodell
In den letzten Jahren hat sich ein besorgniserregender Trend in der wissenschaftlichen Publikationslandschaft etabliert: die systematische Produktion gefälschter Forschungsartikel durch profitorientierte Dienstleister, sogenannte „Paper Mills“. Diese haben sich darauf spezialisiert, wissenschaftliche Arbeiten gegen Bezahlung zu erstellen. Mithilfe von künstlicher Intelligenz (KI) arbeiten sie äußerst effizient und können dank eines fragwürdigen Netzwerks sogar die Veröffentlichung in Fachjournalen ermöglichen [4]. Und diese KI-generierten, gefälschten Forschungsarbeiten sind nicht mehr einfach als Plagiate oder durch schlechte Qualität zu erkennen. Schätzungen zufolge gelangen jährlich tausende gefälschte Paper durch Paper Mills in den wissenschaftlichen Kreislauf [4].
Das Problem ist global, betrifft aber insbesondere Länder mit hohem Publikationsdruck, wie China, Indien, Russland und einige osteuropäische Staaten [4]. Aber auch in westlichen Ländern gibt es eine wachsende Zahl von Forschenden, die sich durch solche Dienste Vorteile verschaffen wollen.
Cochrane geht das Problem an
Um das Problem der gefälschten Daten bzw. komplett gefälschter Studien bei der Erstellung von systematischen Reviews in den Griff zu bekommen, entwickelt Cochrane derzeit ein „Integritätswerkzeug“ (INSPECT-SR Tool: INveStigating ProblEmatic Clinical Trials in Systematic Reviews). Durch verschiedene Informations-Checks sollen zukünftig Indizien für mögliche Integritätsprobleme gesammelt und zu einer Gesamteinschätzung zusammengeführt werden. Studien, bei denen es dann ernsthafte Zweifel an der Vertrauenswürdigkeit der Daten oder der gesamten Studie gibt, sollen dadurch früh im Reviewprozess erkannt werden. Umso besser, wenn dabei nicht nur Datenfälschungen, sondern auch unbeabsichtigte Fehler wie Flüchtigkeitsfehler und Versäumnisse im Datenmanagement bei an sich „echten“ Studien aufgedeckt werden. Gleichzeitig muss aber sichergestellt werden, dass „echte“ Studien nicht zu Unrecht unter Verdacht geraten und nicht berücksichtigt werden.
Um diese Herausforderung zu bewältigen und einen ausgewogenen Ansatz zu finden, wurde das INSPECT-SR-Projekt ins Leben gerufen.
Wenn die Studienbasis mit der Zeit kleiner statt größer wird
Wie weitreichend das Phänomen „nicht-authentischer Studien“ tatsächlich ist, bleibt unklar. Es deutet sich jedoch in einigen aktualisierten Cochrane Reviews bereits an, dass nicht nur die präklinische Forschung, sondern auch die klinische Forschung von Fälschungen und Manipulationen betroffen ist.
Konkret kamen zwei unter Nutzung von Vorläuferinstrumenten von INSPECT-SR aktualisierte Cochrane Reviews zu häufig eingesetzten Mitteln – Vitamin D in der Schwangerschaft und Statine nach einer Herzoperation – in ihren aktualisierten Versionen unter Berücksichtigung einer kleineren Anzahl von Studien zu einem anderen Schluss als die vorherigen Versionen auf Basis einer größeren Anzahl von Studien.
In beiden Fällen führten die Cochrane-Autor:innen in der aktualisierten Version ein Vorab-Screening der zu ihrer Forschungsfrage gefundenen Studien auf wissenschaftliche Integrität der Studien durch und schlossen zum Teil Studien aus, die sie in der vorherigen Version berücksichtigt hatten.
Cochrane Review zu Vitamin D in der Schwangerschaft
Einer der Reviews drehte sich um die Frage, ob eine Nahrungsergänzung mit Vitamin D während der Schwangerschaft zur Vorbeugung von Komplikationen sinnvoll und verträglich ist [8].
Die vorherige Version war auf Basis von 30 Studien zu dem Schluss gekommen, dass die Nahrungsergänzung mit Vitamin D in der Schwangerschaft wahrscheinlich das Risiko für Präeklampsie, Schwangerschaftsdiabetes und geringem Geburtsgewicht reduziert und möglicherweise auch das Risiko für schwere Blutungen nach der Geburt verringert.
Die Verwendung eines Integritäts-Instruments, des sogenannten Cochrane Pregnancy and Childbirth Trustworthiness Screening Tools [9], führte dazu, dass 21 Studien aus der vorherigen Version des systematischen Reviews nun nicht mehr in die Analyse einflossen. Und dies hatte Auswirkungen auf die Schlussfolgerungen: Nun wird die Vertrauenswürdigkeit der Evidenz für die Wirksamkeit der Vitamin-D-Supplementation in der Schwangerschaft als niedrig oder sehr niedrig eingestuft, und die meisten berichteten Ergebnisse für Mutter und Kind stützen sich nur auf Daten aus einer, zwei oder drei Studien.
Im Bereich „Nahrungsergänzung in Schwangerschaft und Stillzeit“ scheint es möglicherweise generell ein Problem mit der Integrität von Studien zu geben. In 14 von 18 speziell mit diesem Tool untersuchten Cochrane Reviews aus diesem Bereich führte eine formale Bewertung der Integrität zum Ausschluss von Studien und bei sechs veränderten sich durch die vordefinierten Kriterien für Integrität die Schlussfolgerungen für die Praxis [9]. Das bedeutet jedoch nicht zwangsläufig, dass die ausgeschlossenen Studien tatsächlich Fälschungen sind. Vielmehr wurde ein Teil dieser Studien der Kategorie „awaiting classification“ zugeordnet.
Cochrane Review zu Statinen zur Vorbeugung von Komplikationen nach einer Herzoperation
Der zweite Review ging der Frage nach, ob es sinnvoll ist, vor einer Herzoperation Statine einzunehmen, um beispielsweise einem Vorhofflimmern in den ersten Wochen nach der Operation vorzubeugen [10].
Ältere und neuere Studien kamen zu unterschiedlichen Ergebnissen. Ältere Studien, die weder eine Registrierung vor Studienbeginn, noch die Genehmigung einer Ethikkommission aufwiesen und vergleichsweise wenig Teilnehmende einschlossen, wurden in der aktuellen Version des Reviews nicht mehr berücksichtigt. Ausgewertet wurden jetzt nur noch 8 Studien (zuvor: 23 Studien) mit insgesamt 5592 Teilnehmenden, fünf davon neuere RCTs, die in der vorherigen Version gar nicht enthalten waren.
Man könnte hier die restriktive Vorgehensweise der Autor:innen infrage stellen und bezweifeln, ob die Grundlage für den Ausschluss einiger RCTs ausreichend war. Schließlich wurde die Registrierung erst seit den 2000er Jahren verpflichtend. Für das Vorgehen spricht aber nicht zuletzt, dass der Ausschluss kleinerer RCTs, die nicht registriert waren und keinen Nachweis über die ethische Genehmigung erbrachten, dazu beiträgt den "Small-Study-Effect" zu vermeiden. Als solcher wird in der wissenschaftlichen Forschung eine Verzerrung (Bias) bezeichnet, die dadurch entsteht, dass kleinere Studien tendenziell deutlichere Effekte berichten als größere Studien. So hatten die älteren Studien auf eine ausgeprägte Reduktion von Komplikationen nach einer Herzoperation unter Statin-Anwendung hingedeutet [11].
Der aktuelle Review findet im Unterschied zur vorherigen Version keine Hinweise für einen Nutzen hinsichtlich postoperativer Komplikationen. Statine beeinflussten weder die Sterblichkeit innerhalb der ersten 30 Tage nach der Herz-Operation, noch schwerwiegende Ereignisse wie Herzinfarkt, Schlaganfall, Nierenversagen, Vorhofflimmern oder die Dauer des Aufenthalts auf der Intensivstation. Werden Statine sowieso regelmäßig eingenommen, spricht nichts dagegen, sie weiter einzunehmen, denn schädliche Auswirkungen von Statinen wurden in der Phase rund um eine Herzoperation nicht berichtet.
Indizien für „nicht authentische“ Studien sammeln
Um die „Verunreinigung“ der Evidenzbasis durch nicht authentische Studien zu vermeiden, soll das sich derzeit in Entwicklung befindende Instrument – das INSPECT-SR-Tool (INveStigating ProblEmatic Clinical Trials in Systematic Reviews) – eine transparente Bewertung der Integrität von RCTs in systematischen Übersichtsarbeiten ermöglichen und so zur Sicherstellung der wissenschaftlichen Validität der SR-Ergebnisse beitragen [5]. Das INSPECT-SR-Integritäts-Tool wird verschiedene Kriterien enthalten, um so Indizien für mögliche Integritätsprobleme zu sammeln.
Beispiele des vorläufigen INSPECT-SR-Instruments [12]
Es zeichnet sich schon jetzt ab, dass es keinen eindeutigen und sicheren Referenz-Standard für verdächtige oder gefälschte Studien geben kann, und das INSPECT-SR-Tool wird auch kein eindeutiger und verlässlicher diagnostischer Test für Betrug sein. Es soll den Review-Autor:innen aber in Zukunft helfen, die Integrität der eingeschlossenen Studien besser einzuschätzen, indem Indizien für Fehler oder Hinweise für mangelnde Authentizität gesammelt werden und so zu einer Gesamteinschätzung zusammengeführt werden.
DR. RER. NAT. BIRGIT SCHINDLER
wissenschaftliche Mitarbeiterin der Cochrane Deutschland Stiftung
CLAUDIA BREUER
wissenschaftliche Mitarbeiterin der Cochrane Deutschland Stiftung
PROF. DR. MED. JÖRG MEERPOHL
Direktor Cochrane Deutschland und Direktor des Instituts für Evidenz in der Medizin des Universitätsklinikums Freiburg
Referenzen
[1] Boughton SL, Wilkinson J, Bero L. When beauty is but skin deep: dealing with problematic studies in systematic reviews. Cochrane Database Syst Rev. 2021; 6(6): ED000152.
[2] Van Noorden R. More than 10,000 research papers were retracted in 2023 – a new record. Nature. 2023; 624: 479-481.
[3] Fang FC, Steen RG, Casadevall A. Misconduct accounts for the majority of retracted scientific publications. Proceedings of the National Academy of Sciences USA 2012; 109: 17028–33.
[4] Else H, Van Noorden R. The fight against fake-paper factories that churn out sham science. Nature. 2021; 591: 516-519.
[5] Wilkinson J, Heal C, Antoniou GA, Flemyng E, Alfirevic Z, Avenell A, Barbour V, Brown NJL, Carlisle J, Clarke M, Dicker P, Dumville J, Grey A, Grohmann S, Gurrin LC, Hayden JA, Heathers J, Hunter KE, Lasserson T, Lam E, Lensen S, Li T, Li W, Loder E, Lundh A, Meyerowitz-Katz G, Mol BW, O‘ Connell NE, Parker L, Redman BK, Seidler AL, Sheldrick KA, Sydenham E, Torgerson DJ, van Wely M, Wang R, Bero L, Kirkham JJ. Protocol for the development of a tool (INSPECT-SR) to identify problematic randomised controlled trials in systematic reviews of health interventions. BMJ Open. 2024; 14: e084164.
[6] Wilkinson J, Heal C, Antoniou GA, Flemyng E, Avenell A, Barbour V, Bordewijk EM, Brown NJL, Clarke M, Dumville J, Grohmann S, Gurrin LC, Hayden JA, Hunter KE, Lam E, Lasserson T, Li T, Lensen S, Liu J, Lundh A, Meyerowitz-Katz G, Mol BW, O'Connell NE, Parker L, Redman B, Seidler AL, Sheldrick K, Sydenham E, Dahly DL, van Wely M, Bero L, Kirkham JJ. A survey of experts to identify methods to detect problematic studies: stage 1 of the INveStigating ProblEmatic Clinical Trials in Systematic Reviews project. J Clin Epidemiol. 2024; 175: 111512.
[7] Preprint: Wilkinson J et al. 2024. Assessing the feasibility and impact of clinical trial trustworthiness checks via an application to Cochrane Reviews: Stage 2 of the INSPECT-SR project. medRxiv 2024.11.25.24316905; doi: https://doi.org/10.1101/2024.11.25.24316905.
[8] Palacios C, Kostiuk LL, Cuthbert A, Weeks J. Vitamin D supplementation for women during pregnancy. Cochrane Database of Systematic Reviews 2024, Issue 7. Art. No.: CD008873.
[9] Weeks J, Cuthbert A, Alfirevic Z. Trustworthiness assessment as an inclusion criterion for systematic reviews – What is the impact on results? Cochrane Evidence Synthesis and Methods 2023; 1: e12037.
[10] Marques Antunes M, Nunes-Ferreira A, Duarte GS, Gouveia e Melo R, Sucena Rodrigues B, Guerra NC, Nobre A, Pinto FJ, Costa J, Caldeira D. Preoperative statin therapy for adults undergoing cardiac surgery. Cochrane Database of Systematic Reviews 2024, Issue 7. Art. No.: CD008493.
[11] Providencia R. Preoperative statins in cardiac surgery: a tale of small study bias or ‘the truth, and nothing but the truth’. Cochrane Database of Systematic Reviews 2024, Issue 7. Art. No.: ED000167
[12] Wilkinson J. Workshop: Introducing INSPECT-SR: a tool for detecting problematic randomized controlled trials in health systematic reviews. Global Evidence Summit. 10.09.2024, Prag.