社会科学出了什么问题，以及如何修复它

2020-09-12 08:17:54

在过去的一年里，我浏览了2578篇社会科学论文，每篇大约花了2.5分钟。这是因为我参与了复制市场，这是DARPA评分计划的一部分，其目标是评估社会科学研究的可靠性。3000项研究被分成10轮，每轮约300项研究。从2019年8月开始，每轮调查包括一周的调查，随后是两周的市场交易。我在10轮调查中有3轮排名第一，在10轮市场调查中有6轮排名第一。奖金总额约为二十万元。

这些研究来自所有社会科学学科(经济学、心理学、社会学、管理学等)。并在2009年至2018年间发表(换句话说，大部分样本来自后复制危机时代)。

市场上的平均复制概率是54%；虽然复制结果还没有出来(3000篇论文中的175篇将被复制)，但之前的实验表明，预测市场运行良好。1个。

我的平均预测与市场一致。四分之一的申领人数超过了76%。其中四分之一的人低于33%：我们谈论的是成百上千篇糟糕的论文，而这只是年度学术成果中的一个很小的样本。

从10000英尺的抽象视角批评糟糕的科学是令人愉快的：你会听到一些无法复制的东西，一些看起来有点愚蠢的方法。他们应该改进他们的方法-黑客攻击是不好的，我们必须改变激励措施，你宣布自己像宙斯一样从云中的王座上下来，然后继续你的一天。

但实际上，潜入社会科学的垃圾海洋会给你一个更有形的视角，更发自内心的反感，甚至可能会让你对这一切的巨大规模产生一种洛夫克拉夫式的敬畏：一个巨大的垃圾填埋场-一望无际的垃圾聚集，喷出的海浪撞击并抛出p=0.049篇论文的污浊泡沫。当你走上跳水台时，畸形的服务员递给你一双鳍状肢。注意到你的沉默，他微妙地点了点头，好像在说：来吧，上车吧。

预测市场运作良好，因为预测复制很容易。没有必要深入研究统计方法或对数据进行严格的检查，也没有必要仔细检查深奥的理论以寻找细微的错误-这些论文存在明显的表面问题。

有一种流行的观点认为，薄弱的研究是无意识的偏见导致研究人员走上岔路花园的结果。给研究人员足够的自由度，即使是最一丝不苟的调查人员也会被误导。

我觉得这个信念是不可能接受的。大脑是一块容易轻信的肉，但自欺欺人是有限度的。他们中的大多数人都必须知道。这是可以理解的，在做研究的同时被带到分岔路的花园里，但当论文完成后，你肯定会注意到，你得到的只是n=23，p=0.049的三向互动效应(这是你测试的几十个效应中的一个，当然没有多次测试调整)。在这一点上，你需要的不仅仅是细微的无意识偏见，才能相信你找到了一些真实的东西。即使作者真的被分叉的道路误导了，编辑和评论家们又在做什么呢？难道我们应该相信他们都是容易上当的乡下人吗？

学院里的人不想惹是生非。他们仍然必须参加会议，获得拨款，在期刊上发表文章，出现在教职员工会议上：所有这些都取决于他们的同龄人。在批评糟糕的研究时，每个人都更容易指责岔道，而不是走在岔路上的人。不需要不舒服的不愉快。诈骗者可以承认，他们确实被那个卑鄙的花园误导了，而不会对他们的声誉造成太大影响，这真的不是他们自己的错，这时他们在Twitter上的同事会鼓掌说，啊，你真好，你以如此高尚的美德处理了这个艰难的情况，这就是进步的方式！嘻哈，嘻哈，欢呼！"；多么可笑的字谜游戏。

即使他们真的指控某人有不当行为，他们也会使用像“可疑研究实践”(QRP)这样的术语。有没有可疑的委婉说法呢？

当他们衡量十几件事情，最后只挑出他们的结果变量时，这不是分叉之路的花园，而是欺诈的温室。

当他们进行相关分析，但给出政策含义时，就好像他们在做因果分析一样，他们不是在花园里散步，而是在美化分叉小路。

当他们选择一个连续变量并任意将其捆绑起来进行子组分析时，或者当他们在回归中加入一个特别的二次项时，他们会重新……使分叉路径花园变得肥沃吗？(看，园艺比喻就这么多，好吗？)。

底线是这样的：如果像我这样一个具有零领域专业知识的随机笨蛋可以预测到什么会复制，那么花了半生时间研究这些东西的科学家也可以预测到什么会复制。但他们肯定不会这样做。

是的，你没看错：复制的研究和不复制的研究被引用的速度是一样的。发表你自己的劣质论文是一回事，但是引用别人的劣质论文？这似乎是不可信的，所以我决定用来自Replication Markets项目的250篇文章样本进行自己的分析。每年的引文量和(市场估计的)复制概率之间的相关性是-0.05！

你可能会假设非复制论文的引用是负面的，但负面引用是极其罕见的。5一项研究认为这一比率为2.4%。令人惊讶的是，即使在撤回之后，绝大多数引用都是正面的，而且这些正面引用在撤回后持续了几十年。6个。

就像人类的所有事务一样，这又一次要归结于汉龙的剃须刀。或者：

接受第一种选择需要一定程度的愤世嫉俗，就连我也很难做到这一点。但另一种选择似乎也好不到哪里去：他们怎么会不知道呢？我，一个没有相关资历和知识的白痴，可以相当准确地判断研究的好坏，但所有的终身专家都不能？他们怎么能不知道哪些报纸被撤回了呢？

我认为最合理的解释是，科学家不读他们引用的论文，我想这既涉及恶意，也涉及愚蠢。格温在这个问题上写了一篇有趣的文章，引用了一些巧妙的书目分析：Simkin&；Roychowdhury冒险猜测，引用一篇论文的作者中，有多达80%的人实际上没有读过原文。一旦一篇论文出版了，没有人会费心去检查它，即使他们知道它有50%的可能性是假的！

无论解释是什么，事实是，学术系统不会将引用分配给真实的主张。这不仅不利于将进一步研究建立在错误结果基础上的直接影响，还因为它扭曲了科学家面临的激励。如果没有人引用薄弱的研究，我们就不会有这么多这样的研究。不顾真相而奖励影响，必然会导致灾难。

你可能会天真地认为，顶级期刊上会充斥着极有可能复制的研究，排名较低的期刊上会充斥着基于5名本科生的p<；0.1研究。不是这样的！与引文一样，期刊地位和质量的相关性也不是很好：统计能力和影响因子之间没有关联，影响因子越高的期刊有更多的论文出现错误的p值。

此模式在复制市场数据中重复出现。正如您在下面的图表中看到的，h指数(一种衡量影响的指标)和平均预期复制率之间没有关系。H索引和字段内的预期复制之间也没有关系。

即使是经济学期刊的crème de la crème也勉强达到了⅔预期的复制率。QJE中每5篇文章中就有1篇得分低于50%，而这是一份每30篇投稿中只有1篇接受的期刊。也许这(部分)解释了为什么科学家缺乏洞察力：杂志的声誉就像是糟糕研究的外衣。从经验上检验这一想法将是一件很有趣的事情。

在这里，您可以看到RM示例中每个日志的复制估计值的分布情况：

据我所知，对于大多数期刊来说，论文中的结果是否属实的问题是次要的。如果我们把期刊建模为想要最大化影响力，那么这就不足为奇了：正如我们在上面看到的，引用次数与事实无关。如果科学家对他们引用的内容更加谨慎，那么期刊反过来也会更加谨慎地对待他们发表的内容。

在我们看到任何实际的复制市场研究之前，我们投票决定了按年计算的预期复制率。Gordon等人。(2020)有这样的数据：复制率预计将从2009/2010年的43%稳步上升到2017/2018年的55%。

这是看过论文后的平均预测值：从2009年的53.4%上升到2018年的55.8%(差异不是统计意义上的；黑点是平均值)。

我经常遇到这样的想法，即在复制危机来袭后，社会科学有了某种巨大的进步，人们甚至不会再梦想发表基于23名本科生的研究(实际上我看到了很多这样的研究)等等。斯图尔特·里奇(Stuart Ritchie)的新书称赞心理学家开发了系统的方法来解决他们学科中的缺陷。在现实中，没有明显的改善。

结果还没有出来，所以很有可能这些研究已经在微妙的方面有所改善，而预测者们还没有发现这一点。也许实际的复制率会更高。但我对此表示怀疑。从p值随时间的分布来看，p<；.001结果的比例略有增加，但与预期的巨大改善相去甚远。

作者只是巨大的科学生产机器中的一个小齿轮。要让这些东西得到资助、产生、出版并最终获得奖励，需要资助机构、期刊编辑、同行评审员和招聘/终身教职委员会的合谋。考虑到这台机器目前的结构，最终要归咎于资助机构。9但我只是在遵循激励措施，到此为止。编辑和评论家实际上不需要接受这些明目张胆的糟糕论文。

期刊和大学当然不能责怪激励措施，因为他们一直支持欺诈者直到痛苦的结束。保罗·马基亚里尼(Paolo Macchiarini)留下了一条死亡病人的踪迹，但多年来一直受到他所在的大学的保护。安德鲁·韦克菲尔德(Andrew Wakefield)著名的欺诈性自闭症-MMR研究花了12年时间才撤回。延斯·福斯特的大学对他的欺诈行为进行了调查后，他们得出结论，他的论文应该被撤回，但期刊干脆拒绝这么做。即使一篇论文的作者承认这些结果完全基于错误，期刊仍然不会撤回。

“神经科学快报”的主编(耶鲁大学的斯蒂芬·G·瓦克斯曼)从未回复过我的电子邮件。APJTM杂志有了一个新的出版商，所以我给两位现任主编都写了信，但他们从来没有回复我的电子邮件。

这组中的两篇论文已经发表在Wiley期刊“老年学”和“J牙周病学”上。“牙周病学杂志”的EIC从未回复过我的电子邮件。那份杂志的四位副主编也没有回复我的电子邮件。老年医学的EIC从未回复过我的电子邮件。

即使他们真的采取了行动，期刊通常也会让科学家纠正伪造的数据，而不是撤回论文！回撤率在0.04%左右，应该要高得多。

即使在因公然欺诈而被捕后，仍有大约一半的违法者被允许继续工作：他们已经获得了超过1.23亿美元的联邦基金，用于他们的后助生研究工作。

首先，重复设计糟糕的研究仍然是糟糕的设计。假设你是一位社会科学家，你注意到潮湿的人行道往往与雨伞的使用有关。你稍微研究一下，就会发现两者之间的关联是无懈可击的。你发表论文，并试图在编辑/审稿人不注意的时候偷偷地使用一些随意性的语言。甚至从来没有提到过雨。当然，如果有人重复你的研究，他们每次都会得到显著的结果。这听起来可能很荒谬，但它描述了成功复制的论文中的很大一部分。

经济学家和教育研究人员往往对这类东西比较在行，但据我所知，大多数社会科学家在读了4年的本科和4-6年的博士学位后，从未遇到过识别策略、模型错误说明、省略变量、逆因果关系等概念。或者他们知道并故意发布废话。像营养学和流行病学这样的领域处于更糟糕的状态，但我们现在不要谈到这一点。

第二：复制索赔的选择。对于一些论文来说，这一点很清楚(例如，数学教育干预→数学分数)，但另一些论文提出了几十种不同的主张，它们都同样重要。有时，复制市场的组织者从一篇论文中挑选了一个没有争议的主张，而这篇论文的核心实验实际上是非常值得怀疑的。通过这种方式，一项研究可以成功地复制标签，而不会对其最具争议性的说法进行测试。

三是效果大小。我们应该将社会科学中的主张解释为关于效应的大小，还是仅仅关于其方向？如果最初的研究说一项干预措施使数学成绩提高了0.5个标准差，而复制发现影响是0.2个标准差(尽管仍然很显著)，那就被认为是成功的，证明了最初的研究是正确的！在这一领域，我们绝对必须放弃二元复制/不复制的方法，开始更像贝叶斯人那样思考。

第四，外部有效性。重复的实验室实验仍然是实验室实验。虽然一些复制试图解决外部有效性的各个方面(例如跨不同文化的概括性)，但这些影响是否与现实世界相关的问题通常没有得到解决。

第五：琐碎。很多论文的复制机率都在85%以上，这一点非常明显。无家可归的学生考试成绩较低，家长财富预测他们孩子的财富，诸如此类的事情。这些并不是一文不值，但它们也没有真正拓展科学的疆界。

因此：虽然大约一半的论文会被复制，但我估计其中只有一半是真正值得的。

大多数期刊文章几乎完全是理论上的。即使所有的统计、p-hack、出版偏差等问题都得到了解决，我们仍然会留下一大堆特别的假设，充其量也就是基于(奇怪的)民间直觉。但是，如果没有理论基础，没有什么可以反驳或提炼的东西，科学怎么可能进步呢？堆积如山的事实不能构成进步的科学领域。

迈克尔·穆图克里希纳(Michael Muthukrishna)和超人乔·亨里希(Joe Henrich)写了一篇名为“理论中的问题”的论文，比我写得更好。我强烈推荐您去看看。

心理学教科书没有建立从总体理论框架中流出的原则，而是在很大程度上是互不相关的经验发现的大杂烩。

这是一个相当长的话题，所以我单独为它写了一篇帖子。戴利：我相信大约1%的伪造/伪造的论文被收回，但总体来说，它们只占非复制研究的很小一部分。

力量是(1-β)：如果一项研究有90%的力量，那么有90%的机会成功检测到正在研究的效果。功率随样本大小和效果大小而增加。

有效p值指示真实效果的概率不是1-α。它被称为阳性预测值(PPV)，计算公式如下：p P V=p r i or r⋅p o w e r i or r⋅p o w e+(1−p r i or r)⋅αppv=\frac{先前\cot power}{先前\cot\alpha}P P V=p r i or r⋅p o w e+(1−p r i or r)⋅αp r i o r⋅p o w e r。

这个模型假设效应可以巧妙地分为两类：一类是真实的，另一类不是。但这是准确的吗？在另一个极端，你有CRUD因素：每件事都是相关的，所以如果你的样本足够大，你总能找到真正的效果。10正如巴坎所说：真的没有很好的理由期望零假设在任何人群中都是真的。例如，如果你看一看教育干预的世界，它们会被整齐地分成两组，一组是真实的，另一组是虚假的，还是会是一个连续的分布？如果没有假阳性效果，除非它纯粹指的是效果的方向，否则假阳性意味着什么？也许粗暴的因素是错误的，至少在因果影响方面是错误的？或许务实的解决方案是宣布，比如说，所有带有d<；.1的效果都是假的，其余的都是真的？或者我们应该完全采用贝叶斯方法？

不管怎样，让我们假装上一段从未发生过。我们在哪里能找到前科医生？有几种不同的方法，它们都有问题。11个。

Scheel，Schijen&Amp；Lakens(2020)发现，44%的RRS取得了积极的结果。12，平均功率为91.5%，假设α=5%，向后工作，我们发现45%的调查效果是真实的。

Ulrich Schimmack使用z曲线方法估计未发表研究的数量，他估计社会心理学的发现率为23%，但这取决于分布假设。

Ingre&；Nilsonne(2018)基于OSC复制(36%的复制率，偏低)提出了之前的5-20%的假设，但其中有一些令人怀疑的假设。13个。

Meehl说，10%纯粹是基于他的直觉。如果像这样的轶事是可信的，在某些地区可能会更低。

确切的数字并不太重要(我们对此无能为力)，所以我将继续使用25%的优先值来进行下面的计算。主要的收获不会随不同的先验值而改变。

现在，我们唯一缺少的就是典型的社会科学研究的力量。要确定这一点，我们需要知道1)样本大小(容易)，以及2)真实效果的效果大小(不是那么容易)。14我将使用超高性能、大规模复制工作的结果：

对于有显著效果的研究，许多实验室2的平均Cohen‘s d为0.62。

Camerer等人。(2018)发现重复研究的平均d为.85。

开放科学协作(2015)在36%的重复研究中平均d为0.93。

出乎意料的大，对吧？然后我们可以使用Szucs&；Ioannidis(2017)中的威力估算：它们给出的中等效果的平均威力为0.49(d=0.5)，大型效果的平均威力为0.71(d=.8)。让我们保守一点，各占一半吧。

当优先级为25%，功率为60%，α=5%时，PPV值为80%。假设没有欺诈和QRP，20%的可能性。