如果您认为心理科学是糟糕的，想象一下它在1999年有多糟糕

2021-06-16 23:31:39

Shane Frederick从1999年指出了这篇文章，“刻板印象敏感性：身份显着性和数量绩效的转变，”他写的是：

这是史上有史以来发表的最糟糕的论文之一（这是一个很大的索赔，我认识）。它陈旧，但如果你从未读过它真的值得一看。它很有名（如1400个引文）。而且，仁慈地，只有3页。

我[弗雷德里克]每年将纸张分配给学生进行审查。他们几乎均焕然一新（即，无批号）。

这继续让我感到惊讶，让我失望，但我不知道他们是否认为他们应该是（实际伤害他们的礼貌规范，实际上是因为我是评估者）或者他们只是缺乏“做”的技能纸上报道的数据和/或许多愚蠢的东西？两个都？

我看了看本文，是的，是的，这很糟糕。他们的设计似乎似乎如此糟糕（抛出样品大小低）：

四十六个亚裔美国女性本科生在实验室会议上单独运行。首先，对操纵视而不见的实验者要求他们直到适当的操纵问卷调查问卷。在女性身份突出条件下，参与者（n = 14）被问及[有关生活在宿舍的单性或混合地板上的一些问题]。在亚洲身份突出条件下，参与者（n = 16）被问到[关于外语和移民的一些问题]。在控制条件下，参与者（n = 16J被问及[各种中立问题]。在调查问卷后，参与者被赋予了由12个数学问题组成的定量测试。。。

主要依赖变量是准确性，这是一个参与者回答的数学问题的数量正确地除以参与者试图回答的问题数量。

亚洲身份突出条件的与会者平均回答了他们正确尝试的54％的问题，控制病情的参与者平均正确回答了49％，而女性识别病情的参与者平均回答43％康复。一种线性对比分析测试我们的预测，参与者在亚身份突出条件中得分最高，参与者在中间的控制条件中得分，并且参与者在女性 - 身份突出条件下得出最低透露这种模式是显着的，t（43）= 1.86，p＆lt; .05。 r = .27。。。。

您可能注意到的第一件事是，T-Score为1.86通常与“P＆LT; .05＆＃34; - 在标准练习中，您需要T-39; D得分至少为1.96，以获得这种统计显着性的水平 - 但它真的是我们的最少的担忧。如果你阅读纸张，你＆＃39; ll看到很多和大量的研究员自由度，也很多与非意义的统计意义的比较，这是一个错误，甚至在这里更多，因为他们给自己许可证根据ad hoc确定是否将每个特定比较计数为“重要”（t = 1.86），“相同，尽管统计上显着”（t = 0.89），或“没有显着差异”（它们没有给出这个问题的t或f得分）。这也许是我第一次看到在几乎 - 统计上重要的类别中的T得分小于1。这是石冷Calvinball，其中据说，“Calvinball只有一个永久性规则：玩家不能两次玩它。”

此处呈现的结果表明，测试性能既可涂布，令人惊讶地易于隐含的社会文化压力。

呵呵？他们可能会救出一些雄鹿，而不是在研究中运行任何人，只是掷一些骰子46次，并提出一些故事。

但作者来自哈佛大学。如果你来自哈佛，我猜你可以逃脱很多东西。

为什么我们说这篇论文是如此糟糕？没有理由怀疑作者是坏人，并且没有理由认为他们测试的假设是错误的。如果他们能够在多所大学的几千名学生可以进行仔细的复制研究，结果可能会很好地与他们的理论一致。除了研究的狭隘范围和仅仅拖曳小组的学生制作的强大概括，设计似乎是合理的。我假设实验是准确描述的，数据是真实的，没有Pizzagate风格的神话人正在进行中。

但那是我的观点。本文显着糟糕，因为它没有任何东西是值得注意的。这是一所大学的研究人员进行的日常糟糕的科学，由国家研究补助金，在顶级期刊上发表的，当我上次被检查时引用了1069次 - 以及数据的结论。（正如我经常说的那样，如果这个理论如此之大，它就像它自己一样，罚款：刚展示了这个理论，也许是一些代表试点研究的初步数据，但是不要做一堆硬币的数学等同物。然后使用头部和尾部的模式来讲故事。）

使用常规不良方法进行常规错误科学，欺骗哈佛学者，期刊评论员和1600左右的研究人员。

从科学的角度来看，像Pizzagate或Cornell ESP的东西或伏都教娃娃学习（真的）或为什么我们睡眠或美容和排卵或排卵或排卵或空气愤怒或者在9或临界阳性比或临时阳性比或者的年龄Michael Lacour的收集的作品 - 这些都错过了这一点，因为这些故事中的每一个都有一些特别值得注意的功能，使他们成为新闻价值。每个人都有一些有趣的故事，但是从科学的角度来看，这些案件中的每一个都很无聊，涉及一些荒谬的理论或一些令人难以置信的过度或一些平坦的科学的不当行为。

但是，上述情况，在其彻底的常识中令人着迷。科学家们只是为了他们的工作。最纯净的，盲目的同伴审查和引用盲人的货物邪教。

我猜柏拉图式的理想是一份纸张发布两项研究，每个参与者都有两个，仍然管理挤出一些统计显着性的索赔。但是两项研究N = 46和n = 19，这非常接近无数据理想。

再次，我相信这些研究人员正在尽最大努力应用他们学习的统计工具 - 我只能假设他们在这个顶级期刊上发表，这是他们正在做正确的事情的信号。不要讨厌球员，讨厌比赛。

P.S.还有一件事。我可以看到诱惑对此论文说些好吃的事情。正是在一个重要的话题中，他们的结果在某种程度上是统计学意义，三个裁判员和期刊编辑认为它值得在顶级期刊上出版。。。我们如何快速解雇它？

简短的答案是，本文中使用的方法是用于证明康奈尔学生具有ESP的相同方法，或者美丽的人拥有更多的女孩，或体现了认知，或各种各样的其他愚蠢的事物，专家们用于告诉我们“别无选择，只能接受这些研究的主要结论是真实的。”

要说本文中的统计方法比无用更糟糕（无用的是根本没有任何要求;差不多是无用的，愚弄自己和他人相信强大而毫无根据的索赔）并不意味着本文的实质性理论是错误的。这意味着纸张没有提供其理论的真正证据。回想一下真实性和证据之间的全部重要区别。还回忆起社会压力来说漂亮的东西，违约的态度我们应该相信出版或公布的研究。不，这不可能是学习科学的方式：提出理论，然后据称通过随机数来测试它们，并根据统计意义编织故事。当这种方法用于故意（“P-hacking”）时，这是糟糕的，并且真诚地完成了这一点。不是道德上的坏，科学只是糟糕的，而不是一种学习外部现实的好方法。

https://statmodeling.stat.columbia.edu/2021/06/16/wow-just-wow-if-you-think-psychological-science-as-bad-in-the-2010-2015-era-you-cant-imagine-how-bad-it-was-back-in-1999/

tags users