启动研究是如何脱轨的(2017)

2020-05-13 12:33:07

摘要:我们计算了卡纳曼“快与慢思考”一书第四章中引用的研究的R指数。本章侧重于启动研究,从导致卡纳曼打开电子邮件的约翰·巴格的研究说起,结果令人大开眼界,令人瞠目结舌。本章引用了12篇文章,12篇文章中有11篇的R指数低于50。综合分析这12篇文章中报告的31项研究,结果显示100%的显著结果,平均(中位数)观察力为57%,通货膨胀率为43%。R指数为14。这一结果证实了卡纳曼的预测,即启动研究是一场火车失事,他的书《快速思考》(Think Fast)的读者。作为科学证据提出的研究表明,他们环境中的细微线索可以对他们意识之外的行为产生强烈影响。

2011年,诺贝尔奖得主丹尼尔·卡尼曼(Daniel Kahneman)出版了一本关于社会心理学重要发现的畅销书《思考快慢》(Think Fast And Slow)。

同年,对社会心理学的可信度提出质疑。一位荷兰社会心理学家捏造了数据。最终,他的50多篇文章将被撤回。另一位社会心理学家发表的结果似乎证明了预测随机未来事件的能力(Bem,2011)。很少有研究人员相信这些结果,统计分析表明这些结果不可信(Francis,2012;Schimmack,2012),心理学家开始公开质疑发表结果的可信度。

2012年初,道扬和他的同事发表了一篇论文,未能复制丹尼尔·卡纳曼(Daniel Kahneman)的书中提到的约翰·巴格(John Bargh)的一项著名研究。几个月后,丹尼尔·卡纳曼(Daniel Kahneman)在写给约翰·巴格(Young,2012)的一封公开电子邮件中与巴格的研究保持了距离:

“当然,正如你们所有人都知道的,人们对启动结果…的健壮性提出了质疑。。你所在的领域现在是质疑心理研究…完整性的典范。人们现在已经在字段上附加了一个问号,您有责任将其删除…。我个人唯一的风险是,我最近写了一本书,强调启动研究是研究联想记忆…的一种新方法。把我算作一般的信徒,…。我之所以写这封信,是因为我看到火车失事迫在眉睫。“。

五年后,卡纳曼的担忧在很大程度上得到了证实。社会启动研究的主要研究未能复制,社会心理学研究结果的可复制性估计仅为25%(OSC,2015)。

回过头来看,很难理解为什么不加批判地接受社会启动作为一个事实。在“思考快慢”一书中,卡纳曼写道:“不相信不是一种选择。这些结果不是捏造的,也不是统计上的侥幸。你别无选择,只能接受这些研究的主要结论是真实的。“。

然而,卡纳曼可能已经看到火车失事了。1971年,他与人合著了一篇文章,内容是关于科学家对基于小样本得出的结论的有效性的夸大信心(Tversky&Amp;Kahneman,1971,第105页),然而,卡纳曼的书中描述的许多研究都有小样本,例如,Bargh的启动研究只用了30名本科生来演示这种效果。

小样本足以检测到大的效果。然而,小效果需要大样本。复制已发表的发现的概率是样本大小和效果大小的函数。可复制性指数(R-Index)使人们能够利用已发表结果的信息来预测已发表结果的可复制性。

每个报告的测试统计数据都可以转换为功率估计,称为观测功率。对于一项单独的研究来说,这个估计是无用的,因为它不是非常精确的。然而,对于一组研究,估计变得更加精确。如果我们有10项研究,平均功率为55%,我们预计大约有5到6项研究有显著结果,4到5项研究没有显著结果。

如果我们用55%的平均威力观察100%的显著结果,很可能就是缺少非重大结果的研究(Schimmack,2012),因为有太多的重大结果,尤其是因为当研究人员只报告重大结果时,平均威力也会被夸大。因此,真正的功率甚至低于平均观测功率,如果我们用55%的平均功率观察100%的显著结果,功率很可能低于50%。

这是不能接受的。Tversky和Kahneman(1971)写道:“我们拒绝相信一个严肃的调查者会在知情的情况下接受未能确认有效研究假设的0.50风险。”

为了修正电力中的通货膨胀,R指数使用通货膨胀率。例如,如果所有研究都很重要,平均功率为75%,通货膨胀率为25%。R指数从平均功率中减去通货膨胀率。尽管如此,在100%的显著结果和75%的平均观察功率的情况下,R指数是50%(75%-25%=50%)。但R指数不是对真实功率的直接估计。如果R指数低于50%,这实际上是对真实力量的保守估计,因此,R指数低于50%表明只有利用偶然性才能取得重大结果,尽管很难量化多少。

“思维快慢”中的社会启动研究有多大的可复制性?

在20世纪80年代,心理学家发现,接触一个单词会导致许多相关单词被轻易唤起的即时和可测量的变化。

我们对记忆理解的另一个重大进步是发现启动并不局限于概念和单词。当然,你不能从有意识的经验中知道这一点,但你必须接受一个陌生的想法,即你的行动和情绪可以由你甚至没有意识到的事件来启动。

在一个立即成为经典的实验中,心理学家约翰·巴格和他的合作者要求纽约大学的学生--大多数年龄在18岁到22岁之间--从一组五个单词中拼凑出四个单词的句子(例如,“他发现它立即变黄了”)。对于一组学生,一半的乱七八糟的句子包含与老年人相关的单词,如佛罗里达、健忘、秃头、灰色或皱纹。当他们完成这项任务后,年轻的参与者被送到大厅尽头的办公室做另一项实验。那一小段步行就是这个实验的意义所在。研究人员不引人注意地测量了人们从走廊的一端到另一端所需的时间。

“正如巴格预测的那样,那些用老年主题的单词造句的年轻人走在走廊上的速度明显比其他人慢得多。”走得慢,这与年老有关。“。

“所有这一切都是在没有任何意识的情况下发生的。当他们后来被询问时,没有一个学生报告说注意到这些单词有一个共同的主题,他们都坚称,在第一次实验之后,他们做的任何事情都不会受到他们遇到的单词的影响。他们并没有意识到年老的概念,但他们的行动却发生了变化。“。

[约翰·A·巴格、马克·陈和劳拉·布伦斯,“社会行为的自动性:特质建构和刻板印象激活对行动的直接影响”,“人格与社会心理学杂志”,第71期(1996):230-44页。]。

“意念推动者之间的联系也起到了相反的作用。在德国一所大学进行的一项研究与巴格和他的同事在纽约进行的早期实验如出一辙。

“学生们被要求以每分钟30步的速度绕着房间走5分钟,这大约是正常速度的三分之一。”在这个短暂的体验之后,参与者识别与老年有关的词汇的速度要快得多,比如健忘、年老和孤独。

“相互启动效应往往会产生一种连贯的反应:如果你开始想到老年,你就会倾向于表现得很老,而装老会强化你对老年的想法。”

“互惠链接在联合网络中很常见。例如,被逗乐往往会让你微笑,微笑往往会让你觉得有趣…。.“

“大学生们被要求在嘴里叼着铅笔的同时,给加里·拉森的”远方“中的动画片的幽默打分。那些“微笑”的人(没有意识到这样做)比那些“皱眉”的人觉得漫画更有趣。

[“人类微笑的抑制和促进条件:面部反馈假说的非突破性测试”,“人格与社会心理学杂志”54(1988):768-77。]。

作者使用了更为自由和非常规的p<;0.05(单尾)标准,z=1.65,作为显著性的标准。相应地,我们调整了R-Index分析,并使用1.65作为标准值。

这些结果无法在拥有17个独立实验室的大型复制工作中复制。没有一个单独的实验室产生了显著的结果,即使是综合分析也没有显示出任何证据来证明这一效果。

在另一项实验中,(通过把眉毛挤在一起)脸被塑造成皱眉的人报告说,他们对令人沮丧的照片-饥饿的孩子,争吵的人,致残的事故受害者-有更强的情感反应。

情感刺激:自动控制的情感反应,“认知与情感”,2002年第16期:第449-71页。]。

这本书中的描述与本文报道的三项研究中的任何一项都不匹配。前两项研究测试了面部肌肉运动对面部表情(微笑或皱眉)图片的反应,第三项研究使用了蛇和花的情感图片。我们可能会认为蛇的照片相当于饥饿的孩子或残废的事故受害者的照片。这些参与者也被要求在看照片的时候皱眉或微笑。然而,因变量不是他们对蛇图片的反应如何,而是他们的面部肌肉发生了怎样的变化。除了指令的强烈效果外,研究还发现,情绪图片对面部肌肉有自动影响。当参与者被指示皱眉看蛇图片时,他们皱眉的次数比被指示皱眉看花图片时更多。然而,刺激因子F(1,47)=6.66,p<;02和刺激6间隔因子F(1,47)=4.30,p<;0.05都表明,对蛇的这种反应大于对花的反应。微笑的证据更有力。“颧大肌对鲜花的反应大于对蛇的反应,刺激因子F(1,47)=18.03,p<;0.001和刺激6间隔因子F(1,47)=16.78,p<;.001都表明了这一点。”本研究没有包括主观体验的测量。因此,本研究的结果没有为书中Kahneman的说法提供证据,本研究的结果也不包括在我们的分析中。

在一次演示中,人们被要求通过新耳机收听信息。他们被告知,实验的目的是测试音频设备的质量,并被指示反复移动头部,以检查声音是否扭曲。一半的参与者被告知上下点头,而另一半则被告知左右摇头。他们听到的信息是电台社论。“

“那些点头(是的手势)的人倾向于接受他们听到的信息,但那些摇头的人倾向于拒绝它。同样,没有意识,只是拒绝或接受的态度与其常见的身体表达之间的习惯性联系。

[加里·L·威尔斯和理查德·E·佩蒂,“公开头部运动对劝说的影响:反应的相容和不相容”,“基础与应用社会心理学”,第1期,(1980):219-30。]。

“例如,我们的投票应该不会受到投票站位置的影响,但它确实会影响我们的投票。”

“2000年对亚利桑那州选区投票模式的研究显示,投票站在学校时,对增加学校经费的主张的支持率明显高于在附近地点时的支持率.”

“一项单独的实验表明,让人们看到教室和学校储物柜的图片也会增加参与者支持学校倡议的倾向。”影像的效果比家长与其他选民的差异还大!“。

[Jonah Berger、Marc Meredith和S.Christian Wheeler,“上下文启动:人们投票的位置影响他们的投票方式”,“美国国家科学院院刊”105(2008):8846-49。]。

在一项实验中,研究人员向参与者展示了一张五个单词的清单,要求他们从这些单词中构造一个以金钱为主题的四个单词的短语(“高薪办公桌工资”变成了“高薪工资”)。

其他素数要微妙得多,包括背景中出现了一个与金钱无关的物体,比如桌子上的一叠大富翁钞票,或者一台电脑,上面有漂浮在水中的美元纸币的屏幕保护程序。

“有钱的人比没有关联触发器的人变得更加独立。在向实验者寻求帮助之前,他们几乎坚持了两倍的时间试图解决一个非常困难的问题,这清楚地表明了他们增强了自力更生的能力。

“金钱至上的人也更自私:他们不太愿意花时间帮助另一个假装对实验任务感到困惑的学生。”当一名实验者笨拙地将一捆铅笔掉到地板上时,(不知不觉)心里想着钱的参与者捡起的铅笔就少了。

“在这个系列的另一个实验中,参与者被告知他们很快就会和另一个人进行一次熟悉的对话,并被要求在实验者离开去接那个人的时候放两把椅子。”接受金钱刺激的参与者选择比没有接受刺激的同龄人保持更远的距离(118厘米对80厘米)。

[凯瑟琳·D·沃斯,“金钱的心理后果”,科学314(2006):1154-56。]。

“启动研究的证据表明,提醒人们他们的死亡会增加威权思想的吸引力,这在死亡的恐怖背景下可能会变得令人安心。”

被引用的文章并没有直接研究这个问题。摘要中写道,“进行了三个实验来验证这一假说,该假说源自恐怖管理理论,提醒人们自己的死亡会增加对那些自愿确认其信仰的人的吸引力,降低对那些威胁其信仰的人的吸引力”(第308页)。研究2发现,启动死亡并没有普遍的效果。相反,其效果受到威权主义的限制。在研究2中,仅在高度威权的受试者中,死亡率的显著性增强了对不同的其他人的排斥。“。(P.314),基于F(1,145)=4.08,p=0.045的三向交互作用。我们使用三向交互作用来计算R指数。研究1报告了基督教目标的评级相反的效果,t(44)=2.18,p=0.034,犹太目标的评级,t(44)=2.08,p=0.043。由于这些测试是相互依赖的,因此只能使用一种测试,我们选择了稍微强一点的结果。同样,研究3报告了对积极的受访者的更多喜欢和对消极的受访者的不喜欢,分别为t(51)=2.02,p=0.049和t(49)=2.42,p=0.019。我们选择了较强的效果。

[Jeff Greenberg等人,“恐怖管理理论的证据II:对那些威胁或支持文化世界观的人的反应的死亡率突显的影响”,“人格与社会心理学杂志”][Jeff Greenberg等人,“恐怖管理理论II的证据:对那些威胁或支持文化世界观的人的反应的影响”]。

例如,考虑一下模棱两可的单词片段W_H和S_P。最近被要求认为自己感到羞耻的行为的人更有可能将这些片段完成为洗涤和肥皂,而不太可能看到愿望和汤。

“此外,仅仅想到在同事背后捅一刀,人们就会比电池、果汁或糖果更倾向于购买肥皂、消毒剂或洗涤剂。感觉自己的灵魂被玷污了,似乎会引发净化身体的欲望,这种冲动被称为“麦克白夫人效应”(Lady Macbeth Effect)。

[麦克白夫人效应》:钟振波和凯蒂·利金奎斯特,《洗刷你的罪孽:

这篇文章报告了另外两项研究,这两项研究没有明确提到,但被用作麦克白夫人效应的实证支持。由于这些研究的结果与上述研究的结果相似,在我们的分析中包括这些测试并不会改变结论。

一项实验的参与者被诱导在电话或电子邮件中对一个假想的人“撒谎”。在随后对各种产品的可取性进行的测试中,在电话中撒谎的人更喜欢漱口水而不是肥皂,在电子邮件中撒谎的人更喜欢肥皂而不是漱口水。

[斯派克·李(Spike Lee)和诺伯特·施瓦茨(Norbert Schwarz),“肮脏的手和肮脏的嘴巴:道德-纯洁隐喻的体现特定于道德越轨中涉及的运动模态”,“心理科学”21(2010):1423-25。]。

通过单侧t检验,结果具有显著性。“如图1a所示,参与者躺在语音信箱(M=0.21,SD=0.72)后对漱口水的评价比躺在电子邮件(M=-0.26,SD=0.94)后更积极,F(1,81)=2.93,p=0.03(单尾),d=0.55(简单主效应),但对洗手液的评价在躺在电子邮件(M=0.31,SD=0.76)后比躺在语音信箱(M=0.31,SD=0.76)更积极。SD=0.86),F(1,81)=3.25,p=0.04(单尾),d=0.53(简单主效应).“我们相应地调整了R指数的显著性标准.”

在实验的第一周(你可以在图的底部看到),两只睁大的眼睛盯着喝咖啡或喝茶的人,他们的平均贡献率是每升牛奶70便士。在第二周,海报上有鲜花,平均捐款降至15便士左右。这一趋势仍在继续。平均而言,厨房使用者在“眼周”的贡献几乎是“花周”的三倍。“。

[梅丽莎·贝特森、丹尼尔·内特尔和吉尔伯特·罗伯茨,“被关注的暗示增强了真实世界环境中的合作”,“生物学通讯”2(2006):412-14。]

然后,我们综合了上述31项研究的结果。虽然小集合研究的R指数可能低估了可复制性,但大集合研究的R指数更准确。所有31项研究的中位数观察力只有57%。令人难以置信的是,使用57%功率的31项研究可以产生100%显著的结果(Schimmack,2012)。因此,有强有力的证据表明,这些研究对社会启动效应的稳健性提供了过于乐观的形象。此外,如果选择有意义的研究,观察到的力量中值高估了真实力量。经通胀修正后的R指数远低于50%,这表明这些研究的可复制性较低。而且,有可能一些报道的结果实际上是假阳性结果,就像大规模复制面部反馈研究未能为原来的发现提供任何支持一样,其他研究也可能无法在大型复制项目中显示出任何效果。因此,《思维快慢》的读者应该对报道的结果持怀疑态度,他们应该无视卡纳曼的说法,即“你别无选择,只能接受这些研究的主要结论是真实的”,而我们的分析实际上得出了相反的结论。“你不应该接受这些研究的任何结论都是真实的。”

K=31,拖把=0.57,通货膨胀。

..