医学领域研究造假状况令人震惊。一些研究人员的调查表明,在某些领域,至少四分之一的临床试验可能存在问题,甚至完全是捏造的。
英国流行病学家Ian Roberts甚至断言:“如果你搜索某个主题的所有随机试验,大约有三分之一的试验都是捏造的。”
他们敦促各方加强审查。
造假普遍存在
John Carlisle是一名在英格兰国家卫生服务中心工作的麻醉师,同时还是《麻醉》杂志的编辑。他以在医学试验中发现可疑数据的能力而闻名。
2017年,他决定仔细搜索他处理过的所有报告随机对照试验(RCT)的手稿。随后3年里,他仔细审查了500多项研究。2020年10月,Carlisle报告了一个惊人的统计:
对于150多项试验,Carlisle获得了匿名的个人参与者数据(IPD)。通过研究IPD的电子表格,他判断44%的试验至少包含有缺陷的数据:例如不可能的统计数据、不正确的计算或重复的数字或图形。他判断,26%的论文存在普遍问题,以至于让人根本不可信——要么是因为作者无能,要么是因为他们伪造了数据。
Carlisle认为,如果没有IPD,即使是经验丰富的侦探也无法发现隐藏的缺陷。但就是这一关键数据,期刊编辑通常不会要求,审稿人也看不到。
他在报告中写道:“我认为期刊应该假设所有提交的论文都可能存在缺陷,编辑应该在发表随机对照试验之前审查个体患者的数据。”
Carlisle将一些试验称为“僵尸”试验,因为它们看起来像真正的研究,但仔细审查后发现它们只有空洞的外壳。他做审稿人时,拒绝了所有包含有“僵尸”试验的研究。但3年过去了,其中大多数研究已经发表在其他期刊上。
事实上,除了Carlisle研究的麻醉领域外,多年来,许多科学家、医生和数据侦探都认为虚假或不可靠的试验非常普遍。他们搜索了女性健康、疼痛研究等多个医学领域的随机对照试验,发现大量数据在统计学上是不成立的。
这个问题在某种程度上是臭名昭著的论文工厂问题的延伸:在过去的10年里,许多领域的期刊都发表了数以万计的虚假论文,其中一些是由“论文工厂”生产的。
伪造或生产不可靠的随机对照数据,是一个特别危险的威胁。它们不仅与医疗干预有关,还可能成为评估临床治疗的证据——医疗指南经常引用此类评估,而这些指南是医生在决定如何治疗患者时的重要参考。
澳大利亚莫纳什大学妇产科学专家Ben Mol表示,女性健康系统评价中包含的随机对照试验中,有多达20%~30%是可疑的。
不过,也有专家怀疑这个问题是否像最令人震惊的例子所表明的那么严重。英国利物浦大学胎儿和孕产妇医学专家 arko Alfirevi 说:“我们必须认识到,医学领域有一些人提供了大量可疑的数据,但很多学术界的学者们认为这是危言耸听。”
造假数据影响到临床实践
随机对照试验是医学研究领域的黄金标准,但如果试验数据造假,就可能严重误导医学实践。
日本骨骼健康研究者Yoshihiro Sato在数十个预防骨折的药物或补充剂试验中伪造数据。Sato于2016年去世。Retraction Watch网站显示,他有113篇论文被撤回。研究人员发现,Sato被撤回的27篇论文被88篇系统评价和临床指南引用,其中一些为日本骨质疏松症治疗的方法提供了参考。
英国阿伯丁大学的医学研究员Alison Avenell表示,如果Sato的试验被排除在外,大约一半的综述中的一些发现可能会发生变化。“它可能导致人们没有得到更有效的骨折预防治疗。”
研究人员担心,在某些领域,来自不同研究团队的大量随机对照试验可能不可靠。
2018年,研究人员发表了一篇综述探讨给剖宫产产妇服用类固醇,是否有助于减少婴儿的呼吸问题。Mol表示,类固醇对婴儿的肺部有益,但可能对大脑造成伤害,在婴儿早产时,益处通常大于伤害,但在妊娠后期使用时,情况不太明确。
2018年,希腊塞萨洛尼基亚里士多德大学的产科专家Alexandros Sotiriadis领导分析了对妊娠后期剖宫产产妇使用类固醇的证据。他们最终选择了四组随机对照试验:一项来自2005年的英国研究,有超过940名参与者;三项埃及试验在2015年至2018年间进行,另外又增加了3000人进入证据库。得出的结论是:类固醇“可能”会降低呼吸问题的发生率——随后被引用在200多篇文献和一些临床指南中。
然而,2021年1月,Mol和其他人对这些论文进行了更深入的研究。他指出,同一试验的结束日期在不同的论文中不一致。同时Mol也对其他的数据提出了质疑。他写信给作者,但并未得到令人满意的回复。其中一名作者告诉Mol,他在搬家时丢失了数据。
2021年12月,Sotiriadis团队更新了其综述内容:排除了除英国研究之外的所有研究。他们是在非营利的民间学术团体Cochrane的指导意见之下作出的更改,Cochrane的研究诚信团队提出:作者应尝试识别“有问题”或“不值得信赖”的试验,并将其从综述中排除。
Sotiriadis团队表示,由于只剩下一项试验,因此“数据不足”,无法得出有关类固醇的确切结论。
总体而言,Mol和他的同事指出了超过800篇已发表的医学研究论文的问题,其中至少有500篇关于随机对照试验。到目前为止,这项工作已导致80多篇论文被撤回和50多篇论文被表达关注。
怎么判断是否可信?
Sotiriadis认为“Mol是检测和打击数据伪造领域的先驱”,但他否认是依赖Mol的工作而做出的更新。Sotiriadis表示,他的团队遵循了旨在检查“可信度”的筛选协议。该协议提供了作者应遵循的详细标准清单,以检查随机对照试验的可信度。例如,试验是否前瞻性注册;该研究是否没有异常统计数据,比如参与者身高、体重或其他特征的平均值分布过窄或过宽,以及其他危险信号。如果未通过前述检查,那么审阅者将被指示联系原始研究作者,如果答复不充分,则排除该研究。
对于Sotiriadis来说,该方案的优点在于避免了他不得不宣布试验有缺陷或欺诈。它们只是没有通过可信度测试。
这留下另一个有争议的话题:可信度检查在某些时候是否对随机对照试验的作者不公平?究竟检查哪些内容才能将不可信的研究审查出来?
2021年,Cochrane高级研究诚信编辑Lisa Bero指出,关于可信度筛选,目前没有有效的、普遍认可的方法。“将真正的研究错误归类为有问题的研究可能会导致错误的结论,这种错误分类还可能致使作者的声誉受损,产生法律纠纷以及伦理问题。”
目前,有多种可信度筛选协议在发挥作用。例如,2020年Avenell和其他人发表了名为“REAPPRAISED”的清单,这是一份面向期刊编辑的检查清单。
在Alfirevi 看来,审稿人使用哪种可信度检查并不重要,只要他们采取措施更仔细地审查随机对照试验即可。
要求提供原始参与者数据
Carlisle表示,期刊应该要求作者分享原始参与者数据。许多对医学试验造假感到担忧的研究人员赞同Carlisle的观点。
英国曼彻斯特大学健康研究员Jack Wilkinson说:“要求分享原始数据是一个好政策。我们一直以来的立场都是相信研究,但我们的立场很天真。”然而,这一建议与大多数医学期刊当前的做法背道而驰。
2016年,国际医学期刊编辑委员会(ICMJE)提议,要求随机对照试验进行强制性数据共享。但是这一提议遭到了反对,很多人认为共享数据会导致试验参与者隐私泄露,以及数据存档资源的可用性问题。
因此,在2017年更新的指南中,ICMJE仅鼓励数据共享,并要求说明是否共享以及在何处共享数据。ICMJE秘书长Christina Wee表示,强制共享原始参与者数据的可行性不足,不过该委员会今后可能会重新审视其做法。
许多医学期刊的出版商表示,根据ICMJE的建议,他们不要求试验作者提供原始参与者数据。然而,一些期刊已经先行一步,他们明确要求作者必须提供原始参与者数据。“大多数作者在被告知需要提供数据时都会提供。”Carlisle说。
Wilkinson表示,对原始数据进行审查是一项耗时的工作,这大大增加了审稿人的负担。除了要求数据外,研究诚信专家还建议期刊编辑可以加快决策过程。
2023年4月,英国议会发布了一份关于可重复性和研究完整性的报告。报告指出,当学术界提出问题时,出版商发表更正或撤回研究报告的时间应不超过两个月。
Avenell说:“如果期刊真的撤销了论文,就应该要求作者改正他们的工作,但这种情况很少发生。”例如,2022年,Avenell的团队发布报告称,他们曾反复给88篇引用了Sato撤稿试验的作者和期刊编辑发邮件,告知他们的研究综述中包含了被撤销的研究,但很少得到回应。目前,只有11篇研究综述得到了更新,这表明作者和编辑通常不关心更正综述。这让Avenell的团队感到沮丧,但他们并不意外。
然而,一个长期存在的问题是,为什么会有如此多的可疑的随机对照试验产生?Mol根据自己的调查经验,把责任归咎于缺乏监督、基于论文发表数量来推动学术发展的肤浅评估方式,以及机构和期刊对不良行为缺乏严格的检查。
“当这些东西不断被生产出来时,就像扑灭一场野火,最终却以失败告终。”Carlisle说,“解决的方法必须从源头抓起。”
(原标题为《1/4临床试验数据造假,“致命缺陷”如何避免?》)
编辑:邵岳