科学处于“复制危机”已经十年了,我们学到了什么吗?

2020-10-17 10:06:09

在过去的15年里,包括这里的Vox在内的“复制危机”已经溢出了大量的墨水。研究人员一次又一次地发现,心理学、社会学、医学和经济学等领域的许多发现在其他研究人员试图复制它们时是站不住脚的。

这场对话在一定程度上是由约翰·约安尼迪斯(John Ioannidis)2005年的文章“为什么大多数发表的研究结果都是错误的”,以及围绕2011年一篇论文的争议所推动的,那篇论文使用了当时的标准统计方法,发现人们有预感。但自那以后,许多研究人员从不同的角度对复制危机进行了探索。为什么研究结果经常是不可靠的?问题是否仅仅在于我们以一种没有细微差别的方式测试“统计意义”--同样强劲的结果可能偶然发生的可能性?是不是空结果(即当一项研究发现没有可检测到的影响)被忽略,而积极的结果被发表在期刊上?

阿尔瓦罗·德·梅纳德(Alvaro De Menard)是国防高级研究计划局(DARPA)复制市场项目的参与者,他最近的一篇文章提出了一种更令人沮丧的观点:导致不可靠研究结果的过程是例行公事的、容易理解的、可预测的,原则上很容易避免。然而,他认为,我们仍然没有提高社会科学研究的质量和严谨性。

虽然与我交谈的其他研究人员驳斥了梅纳德的部分悲观观点,但他们确实同意一件事:十年来关于复制危机的讨论并没有转化为一个不那么容易受到影响的科学过程。糟糕的科学仍然经常发表,包括在顶级期刊上-这种情况需要改变。

让我们退后一步,解释一下人们提到科学研究中的“复制危机”是什么意思。

当研究论文发表时,他们描述了他们的方法,这样其他研究人员就可以复制(或修改)并在原始研究的基础上再接再厉。当另一个研究小组试图在原始研究的基础上进行研究,看看他们是否找到了相同的结果,那就是试图复制。(通常,重点不仅仅是做完全相同的事情,而是通过更大的样本和预先注册的设计来解决相同的问题。)。如果他们发现了同样的结果,那就是一次成功的复制,也证明了最初的研究人员发现了一些东西。但是,当尝试的复制发现不同的结果或没有发现结果时,这通常表明最初的研究结果是虚假的。

为了测试科学研究的严谨性,一些研究人员承担了复制在整个领域发表的研究的任务。随着越来越多的这种尝试复制回来,结果令人震惊-发现许多许多已发表的研究无法复制的情况并不少见。

2015年,一次试图复制100项心理学研究的尝试只能复制其中的39项。2018年,一项旨在复制知名研究的大型国际努力发现,28项研究中有14项是重复的,试图复制顶级期刊《自然》(Nature)和《科学》(Science)的研究发现,21项研究结果中有13项是可以复制的。

复制危机让一些研究人员发问:有没有办法猜测一篇论文是否会复制?越来越多的研究发现,猜测哪些论文会站得住脚,哪些不会站得住脚,往往只是看着同样简单、直截了当的因素。

梅纳德认为,问题并不是那么复杂。“预测复制很容易,”他说。“没有必要深入研究统计方法或对数据进行严格检查,也没有必要仔细检查深奥的理论以寻找细微的错误--这些论文存在明显的表面问题。”

2018年发表在“自然”(Nature)上的一项研究让科学家们押注社会科学研究池中的哪一项会复制。他们发现,在这个博彩市场中,科学家们的预测在估计哪些论文将被复制方面非常准确。

研究合著者安娜·德雷伯(Anna Dreber)在研究发布后表示:“这些结果表明,未能复制的论文存在系统性问题。”

另一项研究已经证实,你甚至不需要对某一领域的专家进行民意调查,就可以猜测它的哪些研究经得起审查。8月份发表的一项研究让参与者阅读心理学论文,并预测他们是否会复制。“没有社会科学专业背景的外行能够以极高的精确度预测社会科学研究的可复制性,”该研究总结道,“仅仅基于简单的口头研究描述。”

门外汉的预测不如“自然”研究中的科学家准确,但他们仍然能够预测到许多失败的复制,这表明他们中的许多人都有即使是门外汉也能注意到的缺陷。

发表同行评议的论文并不是科学过程的最后一步。一篇论文发表后,其他研究可能会引用它-传播原始论文中的任何误解或错误。但研究已经证实,科学家对一篇论文是否会复制有着良好的直觉。那么,科学家会避免引用不太可能复制的论文吗?

加州大学伯克利分校的杨阳、吴友友和布莱恩·尤齐在2020年的一项研究中绘制了这张引人注目的图表,说明了他们的发现:实际上,一项研究是否会重复与被引用的频率之间根本没有相关性。他们争辩说:“失败的论文在文献中流传的速度就像复制论文一样快。”

研究人员查看了2009至2017年间一直被尝试复制的研究样本,发现无论是否复制,研究的引用次数都大致相同。

如果科学家非常擅长预测一篇论文是否重复,那么他们怎么可能引用一篇糟糕的论文和一篇优秀的论文呢?梅纳德的理论认为,许多科学家在论文发表后不会彻底检查-甚至不会阅读--他们期望如果论文得到同行评审,它们就会很好。不好的论文是通过同行评议程序发表的,不足以抓住它们--一旦发表,它们就不会因为是不好的论文而受到惩罚。

在VOX这里,我们写了关于复制危机如何引导我们做更好的科学。然而,尽管有外行可以看到的错误,但粗制滥造的作品仍在同行评议的期刊上发表。

在许多情况下,期刊实际上不会对糟糕的论文负责-许多期刊,比如《柳叶刀》,即使在发生了一系列令人尴尬的公开事件后,仍然保持了自己的声望,因为它们发表的研究被证明是欺骗性的或无稽之谈。(“柳叶刀”最近表示,今年春天关于新冠肺炎和羟氯喹的一项研究在对数据来源提出质疑后被撤回,该杂志将改变其数据共享做法。)。

即使是彻头彻尾的欺诈行为也往往需要很长时间才能被否认,一些大学和期刊拖拖拉拉,拒绝调查普遍存在的不当行为。

这令人沮丧和愤怒。它表明,复制危机不是一种具体的方法论重新评估,而是一个需要在多个层面上重新思考的科学体系的症状。我们不能只教科学家如何写更好的论文。我们还需要改变这样一个事实,即那些好的论文并不比糟糕的论文被引用得更多;坏的论文几乎从来不会被撤回,即使他们的错误对外行读者来说是显而易见的;而且糟糕的研究不会产生任何后果。

在某些方面,学术界的文化积极地选择不好的研究。发表大量论文的压力有利于那些能够迅速将它们组合在一起的人-而快速的一种方法是愿意偷工减料。加州大学默塞德分校(University Of California Merced)认知科学教授保罗·斯马尔迪诺(Paul Smaldino)告诉我的同事布莱恩·雷斯尼克(Brian Resnick):“随着时间的推移,最成功的人将是那些最能利用这一系统的人。”

因此,我们有一个系统,它的激励机制不断推动糟糕的研究,即使我们更多地了解什么是好的研究。

然而,研究复制危机的研究人员在以下问题上存在更大分歧:过去十年的复制危机研究工作是让我们更好地准备好了应对这些问题,还是让我们在开始的地方原地踏步。

Altmejd和Dreber在2019年发表的关于如何预测复制的论文总结道:“未来是光明的。”“将迅速积累更多的复制数据、更多发布复制的渠道、新的统计技术,以及--最重要的是--在资助机构、科学家和期刊中提高可复制性的热情。科学领域令人兴奋的可复制性‘升级’虽然可能早该发生,但正在发生。“。

相反,梅纳德认为,这种乐观并没有得到证实--我们对复制危机的理解没有得到改善,也没有导致发表更多实际复制的论文。他参与的项目-努力设计一个更好的模型来预测国防部DARPA运营的论文被复制的可能性-并没有看到论文随着时间的推移变得更有可能被复制。

“我经常遇到这样的想法,即在复制危机来袭后,社会科学取得了某种巨大的进步,人们甚至不会再梦想发表基于23名本科生的研究成果……。实际上,没有明显的改善,“他写道。

更乐观的研究人员指出了其他衡量进展的指标。诚然,复制失败的论文仍然非常普遍,同行评审过程并没有以一种捕捉这些错误的方式得到改善。但纠错过程的其他要素正在变得更好。

Retaction Watch的伊万·奥兰斯基(Ivan Oransky)认为:“期刊现在每年撤回约1500篇文章--比2000年增加了近40倍,即使算上每年发表的论文大约翻了一番或三倍,这也是一个戏剧性的变化。”“期刊有所改善”,报道了更多关于撤回论文的细节,并改进了它们的撤回流程。

普通科学实践中的其他变化似乎也有帮助。例如,预先注册-在进行研究之前宣布您将如何进行分析-会导致发布更多的空结果。

哥伦比亚大学的统计学家安德鲁·盖尔曼告诉我:“我不认为(关于复制危机的公开讨论)对科学实践的影响是零。”“这场危机影响了我自己的研究实践,我想它也影响了其他许多人。我的总体印象是,像“心理科学”和“美国国家科学院院刊”这样的期刊发表的垃圾文章不像以前那么多了。“

这让人有些放心。但在这些改进转化为更高比例的论文复制和好论文与差论文的引用差异之前,这是一个小小的胜利。这是一个来之不易的小胜利。在花费了大量的资源来证明问题的范围,争取更多的撤回,教授更好的统计方法,并试图将欺诈行为公之于众之后,论文仍然没有像研究人员希望的那样复制,糟糕的论文仍然被广泛引用-这表明问题的很大一部分仍然没有被触及。

我们需要对复制危机有一个更复杂的理解,不是把它看作是我们能够以更高的标准前进的实现时刻,而是把它看作是科学过程中的一种持续腐烂,十年的工作还没有完全修复这一腐烂的过程。

我们的科学机构是有价值的,它们为帮助我们理解世界而建造的工具也是有价值的。这里没有绝望的理由,即使有些挫折感是完全合理的。当然,科学需要拯救--但科学非常值得拯救。

每个月都有数百万人转向Vox来了解新闻中正在发生的事情,从冠状病毒危机到种族清算,再到很可能是我们一生中最重要的总统选举。此时此刻,我们的使命从未像现在这样重要:通过理解来增强你们的能力。但是我们独特的解释性新闻需要资源。即使经济和新闻广告市场复苏,你们的支持也将是维持我们资源密集型工作的关键部分。如果您已经投稿了,谢谢您。如果你还没有,请考虑帮助每个人理解这个日益混乱的世界:现在就从3美元开始捐款吧。