聪明的民间经常充满废话,研究发现

2021-04-23 10:08:42

对于我们大多数人来说,我们所知道的以及我们认为我们所知道的差距很大。我们对我们的事实知识和预测的信心相信,这与我们的能力不符。由于我们的个人决定是根据我们可用的知识对未来的预测,因此努力调整我们的信心与我们的技能有意义。

去年我衡量了3500名参与者在琐碎的比赛中的知识信心缺口。对于每个真正/虚假的琐事问题,受访者指定了每个答案的信心水平(50%到100%)。在10个银行提供的问题涵盖了许多主题,并从简单(美国停车标志有8个方面)到专家(斯德哥尔摩)进一步西以维也纳)。

我在网站上运行了这个实验,使用了1500个真/假问题,其中大约一半属于特定类别,包括音乐,艺术,当前事件,第二次世界大战,体育,电影和科学。访问者可以在“各种”类别之间或特定类别之间进行选择。我要求获得年龄,性别目前的职业,称号和教育等个人信息。大约20%的网站访问者给出了大部分信息。 30%提供了他们的职业。

参与者被告知,游戏的观点并不是为了获得正确的问题,而是有适当的信任水平。例如,如果您的平均置信度值为75%,他们的答案的75%应该是正确的。如果您的信心和准确性匹配,则据说您将被校准。否则,您要么过于自信或结束。过度自信 - 有时候 - 更常见,尽管小的百分比显着下降。

在群体决策方面的过度依据是特别令人不安的。 Groupthink - 集体过度限制和合理化的凝聚力 - 是一个众所周知的例子。当社会效应和单一过度自信参与者的判断的感知优势可能导致无意识地抑制来自大多数团队成员的有效投入的无意识抑制时,存在更常见的,更微妙的情况。例如,后者解释了挑战者的发射决定,而不是经典的Groupthink,尽管Groupthink通常被引用为原因。

我设计了Trivia测验系统,以便各种标签下的每组十个问题都包括一个关于哪个人尤其充满激情的主题 - 环境或社会正义问题。我从Hans Rosling的书中了解这个想法,有罪。正如预期的那样,受访者既绝对是错误的,并且关于与情绪问题相关的事实急于过分自信,例如,在过去五年中亚马逊雨林地区的净变化。

在继续前进专业类别之前,我鼓励人们通过各种类别来使用。假设受访者选择的第一个专业类别是他们最喜欢的,我发现他们通常更过于多么过于自信,他们认为他们认为最好的知名。例如,首先选择的音乐然后艺术的那些显示出更高的分辨率(正确性)和比在艺术中的音乐中更高的高度交流。

所有首选专业的平均过度速度为12%。对第二种类别的平均过度充分是9%。一种解释是人们更过于多么过于自信,他们最着迷。当他们回答更多问题时,受访者的过度信心逐渐减少。在那意义上,系统担任置信校准训练。然而,即使筛选出改善校准的效果,也存在在选择的第一种特色类别中的相对过度排益。

对于前10个问题,各种类别的平均过度依据为16%(男性16%,女性为14%)。除了“激情”问题之外,每组九个问题的平均过度自信是13%。

过度自信似乎是跨行业的常量,但大学教育均持续增加约1.5%。 PHDS比高中毕业更远4.2%。我会把它留给教育的社会学家来解释。一个值得注意的例外是一组研究实验室的分析师,即使在他们的前10个问题s也是完美的校准中的一半或两个。男性比女性更过于自信。在男性中缺席(超过5%的低于5%),并在6%的小组中呈现为妇女(总共98个)。

在分辨率(响应正确性)与信心的情节中看到过度信心的性质。我们的信心大致与我们的准确性相匹配,达到信心高度高,约为85%。在此之后,提高了置信度,绝对没有提高。在100%的置信水平上,受访者平均较低的差别比95%的信心。其中大部分效应源于10个中的每组中的一个“技巧”问题;人们往往是对高媒体报道的热门话题有信心。

参与者表达的置信度值的分布是名义上的双峰。人们对答案的准确性表示非常高或非常低的信心。略微碰撞处于75%的75%可能是测试方法的伪影。置信滑块(网站用户界面元素)的默认值为75%。在单击“提交”按钮时,如果大多数响应指定了默认值,则警告用户,但无论如何都似乎存在默认效果。在SuperforeCasters Philip Tetlock观察到,许多人似乎有一个“三种设置”(是,不,也许)关于概率问题的心态。这也可以解释75%的轻微峰。

在过去三十年中,我一直在使用类似的方法来统计决策设置中的信心校准。我从莎拉利斯滕斯坦和巴鲁奇·菲兹赫夫的国防部出版社从20世纪80年代中期致力于Midgetman小洲际弹道导弹计划。 Doug Hubbard在他的书中教导了类似的方法风险管理失败。在我对有贡献危险分析的多元化群体的经验中,群体决策需要关于不确定事件的可能性,使用类似工具的一小时培训,如上所述,校准产生令人印象深刻的改进。

我用于此实验的网站(https://www.congap.com/)仍然与启用大多数功能一起生活。它在廉价的托管平台上运行,如果最近尚未访问,则可以缓慢加载(时间来旋转实例)。给它一分钟。一旦它加载,性能就好了。