我们应该如何批评研究？

2021-04-16 23:40:49

必须用批判性注意读取科学和统计研究，以了解索赔的可靠性。再现性危机和Meta-Science的增长表明，许多研究质量低，通常是假的。但是，有许多可能的研究可能被批评的任何可能的事情都批评，缺乏不可接受的理想，即不明确的是哪种可能的批评是重要的，他们可能会变得更加简而言之。我们如何将致命的缺陷与不幸的警告分开来自尊严的Quibing？

我提供了务实的标准：是什么构成批评的重要性是如果纠正以及更改我们的决定或行动，它可以改变多少，这将如何改变我们的决定或行动：这是一个“差异有所不同”的程度。这就是为什么研究欺诈，因果推断或偏见产生高估的原因是普遍重要的，因为“因因素”的“因果”效应被归零效应或过度归因于因素将根据此类研究改变几乎所有决定;另一方面，虽然测量误差或分布假设等其他问题通常不重要，因为它们通常在结论中通常产生更小的变化，因此决定。

如果我们经常询问批评是否会产生这种差异，那么它将更清楚，哪些是重要的批评，其中风险是修辞分心和阻碍有意义的研究评估。

学习统计数据很棒。如果您想一般阅读和理解科学论文，比统计数据更好地学习，因为这些天的一切都涉及统计问题，并借鉴越来越强大的统计方法和大型数据集，无论是诸如机器学习还是世俗的遗传学家等遗传学家数百万人，如果你没有至少对统计数据掌握，你将越来越多地遗漏科学和技术进步，并且无法将他们的申请与社会有意义地讨论，所以如果你必须在统计数据上有很好的基础您对这些主题感兴趣 - 或者我想说。问题是...学习统计可能是危险的。

比如学习一些正式的逻辑或关于认知偏见，统计看起来可能会说“一点学习是危险的东西/饮酒深刻，或者味道不是彼得安春天/有浅薄的草稿醉酒，主要喝酒再次索布我们。“

当你第一次学习一些正式的逻辑和关于谬误时，很难不使用闪亮的新锤子来播放“秋季宾果”（混合隐喻）：“AHA！这是一个广告主页，我的好先生，以及逻辑上无效的反对意见。“当然，问题是，随着归纳逻辑的问题严格坚持正式的三段论将以最好的浪费大量的时间，并且在最糟糕的是通过选择性地应用严格的自我妄想工具。

同样，认知偏差很难有效使用（因为它们是某些情况下的信息前瞻，并且在普通有害的情况下，人们已经学会了更好），但很容易滥用 - 它总是最容易看出别人悲伤的伤害猎物确认偏见。

那么，我们的统计批评是什么意思？是什么，做出了好或坏的统计反对意见？

“在这里，我想说：一个可以转动的轮子，但没有别的东西，这不是机制的一部分。”

它不能只是一种批评是无聊的，引起眼球的恐惧 - 从〜2000-2010竖立在统计权力＆amp上的每一个遗传讨论中的人;多种因素，并陈述了所有这些令人兴奋的新候选基因＆amp;基因 - 环境互动结果是如此多的婆婆，整个文学垃圾是深感令人深感令人沮丧的，磨掉他们的欢迎快，并绝对是正确的。（或用于营养研究，或社会心理学，或......）作为挑衅，因为它可能是读取另一个人黄黄色“相关性≠的因果关系”或“是的，在老鼠中！”，不幸的是，对于所有这一切的研究不管我们厌倦了多少，都应该说出来。

不能违反（或未经证实或无法移动）的一些假设，或者现实世界的某些方面被遗漏了，因为所有统计模型都是大规模的摘要，毛额简化。因为始终可以识别一些不恰当的正常假设的问题，或者没有建模的一些自相关，或者一些不包括的非线性术语，或遗漏的现有信息，或者在某种方面缺乏数据。清单和预先记录和其他技术可以有助于提高质量，但永远不会解决这个问题。缺乏对计算机模拟的TaItolorical分析，没有并且从未成为一个完美的统计分析，如果有的话，任何人都要理解（这是一种批评）将过于复杂。我们所有的型号都是假的，但有些可能有用，并且良好的统计分析仅仅是“足够好”。

它不能是结果“复制”。重复性并没有说出除了同样的方式收集进一步的数据，结果将保持不变。虽然最佳复制的结果是值得怀疑的值（它很可能是不是真实的，但是以3开始），结果是可复制的结果无法保证质量。一个可能有一致的过程，但可复制的垃圾仍然是垃圾。要收集更多数据，可以简单地更精确地估计过程的系统错误和偏差。（无论您如何发表的顺势疗法论文，您都可以找到同种疗法，它没有。）

它肯定与在研究中或复制中的p值几乎没有（因为没有兴趣与p值有关）;如果我们纠正错误并从p = 0.05从p = 0.06更改特定的p值，那么是什么？（“肯定，上帝喜欢0.06几乎和0.05 ......”）后验概率，而有意义和重要，也没有标准：如果一个研究的参数的后验概率大于95％而不是94％？或＆gt; 99％？或＆gt; 50％？如果批评，在纠正时，将后续概率从99％降至90％，这是我们的意思是一个重要的批评？可能（咳咳）没有。

它还不必与效果大小的任何增加或减少有关。如果一项研究产生一些错误，这意味着它会产生两倍大的效果大小，因为它应该是绝对达到的，或者可能很大程度上无关紧要。也许不确定性至少是大大的所以没有人在面值开始估计，以便开始，或者每个人都理解错误的可能性，并理解这一点是一个上限。或许效果如此之大，以至于超过10倍的估计不会是一个问题。

它通常与预测力量不一定（无论是否量化为R 2 OR）;纯粹的预测是研究子集的目标（尽管如果人们可以表明一个特定的选择导致更低的预测得分，那将是一个良好的批评），并且在许多情况下，最好的模型根本不是特别预测的，并且模型过于预测性是红旗。

“统计名不再是一个预期的炼金术士，预计将从任何毫无价值的材料中生产金子。他更像是一种化学家，能够确切地测定它含有多少价值，也能够提取这个量，而且没有更多。在这种情况下，赞扬统计名人是愚蠢的，因为他的结果精确，或者责备，因为他们不是。如果他在他的工艺中能够称职，那么结果的价值就是仅仅从给予他的材料的价值。它包含了这么多信息，不再是。他的工作只是制作它所含的东西......对劣等数据的艰巨计算可能会增加95％至100％的产量。增长5％，也许是少量的。在收集过程中或实验设计的过程中，可能往往增加产量十或十二倍，以相同的时间和劳动力。 ......在实验结束后咨询统计学家通常只是要求他进行验尸检查。他也许可以说实验死于什么。“

嗯，如果发现了一项研究的草案，并且索赔基于一个变量的统计上显着的效果，但在最终发布的版本中，它省略了该变量并仅谈论不同的变量，一个人会想知道。发现一项研究的作者通过从研究结果受益的公司获得了数百万美元，这将严重震撼一个人对结果的信心。如果在我们在家庭内比较兄弟姐妹，或者更好的尚未相同的双胞胎，或者在其他数据集或其他国家/地区不存在相关性，那么如果在其他国家/地区的相关性，则不存在相关性，那么无论它有多强烈支持一个数据集，这将是一个问题。如果一个花哨的新机器学习模型表现出2％，但原来不正确地使用挖掘样品并实际执行相同，但无疑的ML研究人员将不那么印象。如果有人表明达到相反的效果规模，以与相关的分析达成相反的效果，那将使大多数人变得重要。如果在最新试验中吹捧了一个主要的新癌症药物作为通常的副作用的常量效果有效，并且看到两者都与零效应的零效果和新的点估计相比药物低于常用化疗，患者是否想要使用它？如果心理学实验与被动对照组和活性对照组有不同的结果，或者手术的结果取决于临床试验是否致盲，当然是一个问题。如果数据完全制作，那么这肯定值得一提。

这些传统观点都是本质上的本质上的不同。那么它们有什么共同之处，使他们成为良好的批评？

“结果只有当他们可能与真相不同的金额有价值，这对于实验的目的而言是如此之小。赔率应该取决于：“

“关于实验性质允许的准确度和”

⁠，“在啤酒厂的工作中的应用”，啤酒厂的工作“，1904 4

“此外，经济方法似乎（如果不受贵族或清教徒的禁忌拒绝）唯一的设备才能在不确定（或概率理论）逻辑中易于区分或不矛盾。这是......概率理论和决策理论所提供的基本课程是同一主题研究的两个版本（理论和实用）：不确定。“

但我认为他们共同分享的是这种决定理论的理由，统一批评（并将统一统计教育学）：

统计批判的重要性是它将改变基于该研究的假设决策的可能性。

我会断言，P值不是后验概率不是效果大小不是公用事业不是利润不是决策。二分法来自决定。所有分析最终是决策分析：我们的信念和分析可能是连续的，但我们的行为是离散的。

当我们批评研究时，我们遵循的标准是最终终止于现实世界的行动和决策，这是一个固有的上下文依赖的标准，承认没有明亮的线条，并取决于研究的使用和动机，接地是正确的事情。 5.

对于获得一些任意级别的“意义”或“良好的”或在良好的ks中具有某种k，以估计异质性，甚至任何特定的后阈值，或效应尺寸阈值;与违反特定假设没有任何关系，除非违反这种假设，否则模型不是“足够好”，并会导致糟糕的选择;它被松散地绑定到复制（因为如果结果在将在将采取行动的未来情况下复制，因此它没有用规划），但没有由它定义（结果可以在仍未无用时复制很好）。

许多这些批评的重要性可以通过询问研究是什么以及如何影响下游决定来更加直观。我们不需要通过贝叶斯分析到公用事业的分析以及对比较的因果模型一直进行正式的决策分析（尽管这将是有用的，并且在边缘案件中可能是必要的），但可以是一个非正式的考虑是一个很好的开始，因为人们可以直观地猜测下游效果。

我认为我们也可以有意义地应用这个标准，即使是“纯粹”的研究问题，尚不清楚如何应用研究，具体而言。我们对认识论和科学方法论有很大的了解以及哪些实践往往会导致可靠的知识。（当人们争论纯粹的研究时，因为它的旋转史如加密学的历史，所以非常论证意味着疏散不是那种不可预测的＆amp;是一个成功的务实防御。我们进化的好奇心是有用的事实肯定没有意外。）

例如，即使没有针对某些研究的特定目的，我们也可以看到为什么伪造欺诈性数据是可能的最批评：因为没有任何决定，通过使用伪造的数据来更好地实现。许多假设或快捷方式将在某些情况下工作，但在某些情况下，没有假数据，这与现实不相关，工作;即使在伪造的数据被限制为完全复制对现实的最佳了解的情况下，它也夸大了夸大证据的决策，导致过度频繁和曝光率。

同样，粗心的数据收集和测量误差。在通过比较数据库中的奇数条目发现之前，微生物学家无法提前了解，并且是纯粹研究如何导致巨大收益的一个很好的例子。但是，如果它们是不完整的，充满误标记/污染的样品，或者差不多，你怎么能发现来自数据库的任何东西，或者排序是邋ily＆amp的测序;序列很大程度上是随机垃圾？如果您正在研究“癌细胞”，它们是误标记的细胞系＆amp;实际上肝细胞，可能会增加癌症的知识吗？

或考虑安慰剂效应。如果您了解到，特定的研究结果完全由安慰剂效应驱动，并且使用盲目会产生空，我可以安全地预测 - 无论现场或哪个主题或其他任何东西 - 你几乎总是非常失望。如果一项研究措施只是安慰剂效应（具体而言，需求或期望效应），这是诅咒的，因为通过狭窄的心理因果机制，安慰剂效应已被称为普遍适用（因此表明它再次发生并不有趣）随着时间的推移而消失;不会影响硬端点（如死亡率），而它不会影响安慰剂偏置的研究似乎操纵的无数因果机制（其操纵实际上是立即和建筑理论有用）。如果说，除了通过安慰剂效应，我们为什么要使用它们？在学习后，我们会在难以置信的情况下才有一些例外情况只是安慰剂效应（慢性疼痛治疗？轻度流感？），但不多。

不可复制性怎么样？心理学中可复制性危机的最简单解释是，大多数结果都不是真实的并且是随机噪声，P-hacked进入出版物。辩护者所作的最慈善的解释是，这些效果是真实的，但它们只是缺乏小或如此非常高度的上下文，依赖于确切的细节（纸张，实验者等的精确位置，颜色，实验等）甚至合作使用原始研究人员无法保证成功复制效果。同样，无论具体结果如何，这都提出了一种Treilmma，它与决策理论的观点特别损害：

它们远小于报道（因此对任何类型的应用或理论建设有用的不太有用），

或者它们如此脆弱，在任何未来的上下文中，几乎可能是一些其他效果，甚至相反的方向，它们的平均效果有效零（并且因此无用）。

决定在信仰之前。我们的本体论和我们的认识论从我们的决策理论中流动，而不是反之亦然。这可能似乎是逻辑向后，但这是我们所在的情况，因为所体现的生物思维＆amp;在不确定性下行事：就像奥托尼卫生的 - 这无处可去，我们可以从划痕和逻辑形而上学构建所有信仰和知识，而是我们在我们站立时检查和修复我们的筏子，逐一的作品。对怀疑论者（比如）的自然主义答案是，我们的信仰并不可靠，因为它们是经验的或进化的或者最终在审判和错误中开始，但它们是可靠的，因为它们已被逐步发展以务实地对决策进行务实正确而被争论，并且由于进化的约束，开发了对世界的可靠知识和科学方法。（逆转流程的一个例子将是Deutsch-Wallace试图在决策理论上发现出生;之前，统计学家如⁠，⁠，⁠，⁠，＆amp;等表明，大部分统计数据都可以在决策中被接地而不是反之亦然，由主观概率学校和依照⁠。）

“一个好的拇指规则可能是，”如果我向这个号码添加了一个零，那句话会意味着与我不同吗？“如果答案是'否'，也许这个数字也没有业务在句子中没有业务第一个地方。“

假设相关性=因果关系是一个好的，因为相关性通常不是因果关系，并且从隐含的〜100％确定，它是一个更现实的25％或更少，可以改变许多决定，因为单独的观察可以减少这种观察预期价值＆gt; 75％，这是一种足够的惩罚，消除了许多吸引人的发言。

由于因果效应是如此的核心主题，任何影响相关性引起的方法错误，而不是因果关系都是重要的错误。

一种批评的分布假设（例如观察变量并不是如此，因为学生的T分布式不那么正常）通常是重要的，因为任何关键变量的后部分布的变化都会很小，并且可能会改变只有在刀刃上的决定，开始（并且因此，几乎没有价值）。

这里有异常，在某些区域，这可能是至关重要的。分布明智，使用正常而不是逻辑正常通常很小，因为它们在其分发的大部分中如此相似......除非我们谈论他们的尾巴，就像在一个上下文中一样（在任何类型的选择或极端分析中常见，例如就业或田径或媒体或自然灾害），在尾巴上更加极端的指向是重要的;在这种情况下，使用正常会导致狂放的低估这些异常值的距离是多少，这可能具有很大的实际重要性

另一方面，治疗李

......

https://www.gwern.net/Research-criticism

tags users