抬高数据,缺失意义(2017)

2020-09-05 04:36:50

科学是由哲学发展而来的。在我们有哥白尼的行星表或牛顿的运动方程之前,我们有亚里士多德的修辞。中世纪的自然哲学是错误的,但它仍然做出了有用的预测。

我的职业生涯致力于制造消费品和教育领域的东西,在这两个领域,我都观察到了决策中常见的失败模式:对数据的压倒一切的痴迷--看起来像是科学的--以及与之相关的对哲学的否定。

在某些领域,如制造业、运输业和航空业,这是一种完全合适的痴迷。但在消费产品、教育和许多其他涉及人性混乱的领域,对数据的痴迷成为隐藏错误的牺牲品,扭曲了我们的真实目标。更糟糕的是,它剥夺了我们真正有意义的洞察力,这些洞察力可以通过哲学、直觉和故事获得,但还不能通过量化系统完全解释。

这种危险潜伏在尚未系统化的领域。说到人,我们缺少牛顿的运动方程。实际上:我们甚至不知道等价的方程式应该衡量什么。即使我们做到了,我们也很可能没有能够测量这些数量的仪器。有没有方程式可以有效地描述这些现象呢?我想是的,但我不知道我们能不能肯定这一点。

在我们为这些领域建立更有力的解释理论之前,我们必须尊重哲学的作用,警惕扮演科学家的危险。

你有没有在一堂课上拿过好成绩--比如说微积分--但后来觉得你并没有真正理解到底是怎么回事?你可以按照你学过的步骤来解决问题,比如你的班级解决的问题,但是你不能解释它们为什么有效,或者在新的环境中应用它们?这种体验似乎无处不在!

在教育和设计等领域,我们只衡量间接指标:页面点击量、停留时间、考试成绩变化、调查回答等等。然后我们试着用这些测量值做出决定。

这就像摆动一根杆子,连接到一组复杂的齿轮上,连接到我们想要测量的东西上,而反过来又(以神秘的方式)连接到我们实际测量的东西上。

要弄清楚如何继续,您需要在用户行为日志中寻找相关性。比方说,你发现一张照片上传的速度和用户立即分享重大新闻照片的可能性之间存在很强的相关性。您告诉您的工程师要专注于优化上传时间!

您将优化的照片上载工具…。但是您看不到您正在测量的指标有什么好处。事实证明,你并不是偶然发现了这种关联:你之所以看到这种关联,是因为上传速度更快的人能负担得起更好的手机连接,这意味着他们更有可能在外出和外出时上传照片,而不是等到使用未计量的WiFi。

即使我们非常确定我们没有任何隐藏的原因或后果,我们仔细考虑了我们所有的假设,我们也必须记住,这些都是我们正在优化的代理。随着情况的不同,这些代理与你真正目标的联系可能会逐渐减少-或者相反!

如果你的饮食中已经没有太多的维生素C,那么少量服用维生素C可以预防疾病。但这并不意味着你应该拿一百倍的钱去追求一百倍的收益(就像两届诺贝尔奖得主莱纳斯·鲍林那样):你不会看到任何边际收益,你只会把它们全部排泄出来。

在最坏的情况下,固定在这些代理上可能会产生不正当的激励。假设你想让学生为解决具有挑战性的问题的生活做好准备。诚然,尽量减少缺课天数可能有助于实现这一目标,但超过一定程度后,其他因素将起主导作用。

如果你对零缺课天数进行了过于激进的优化,你可能很容易颠倒这种相关性,扰乱学生的家庭生活,或者制造一种让学生憎恨他们专制的学校的氛围。

如果你生产一款产品,总使用时间似乎可以很好地代表客户的喜好。但是如果你把这个指标看得太重,你就会因为做出改变来帮助客户在比以前更短的时间内完成一项给定的任务而受到惩罚。

在这些领域提升数据有一个更微妙的问题-我的研究伙伴梅-李科(音译)一遍又一遍地耐心地为我解释。如果您试图通过引导对业务结果产生最大影响来设计具有人类意义的东西,则很可能最终几乎没有人类意义的…。从长远来看,这可能会损害你正在衡量的任何业务结果。

类似地,“应试教学”以你所期望的方式吸走了课堂中的魅力和参与度。

弗兰克·兰茨(Frank Lantz)的这篇演讲精彩地讲述了游戏设计中的问题(这是33:30的引述;感谢布雷特·维克多(Bret Victor)的指点):

量化的、数据驱动的游戏设计的两难境地…。。这里有一个类比:假设你有一个朋友在建立关系方面有困难,…。“我不知道我做错了什么。我去约会,我带了体温计,这样我就可以测量他们的皮肤温度。我带了卡尺,这样我就可以测量他们的瞳孔,看看什么时候…在扩大和收缩。“。关键是,这些指标是否正确来预测某人的性唤醒甚至都无关紧要。如果你约会时随身带着温度计和卡尺,你就不会有性爱…了。

想象一下,两位老师对他们班级的考试成绩有完全相同的影响。它们对培养有能力的思想家产生同样影响的可能性有多大?

您决定调整一些变量,因为在过去,它与产品使用量的增加高度相关。此更改更好地解决用户有意义的问题的可能性有多大?

我们已经看到,主要基于与我们的真正目标有模糊联系的间接措施来做出决策是有很多危险的。然而,很明显,伟大的教师和伟大的设计师确实在这些未系统化的领域有效运作!

他们有洞察力,他们有直觉。这些来自一种内化的关于该领域的哲学,来自经验、观察和故事。是的,他们的哲学是不完美的;不,他们不一定能给你一套卡尺,你可以用来自己做决定。

但是,如果你问到某个学生的互动,或者某个产品的具体细节,他们往往可以事后解释为什么他们的哲学会把他们推向一个或另一个方向。听得够多,你可能会建立一些你自己的直觉。

这不仅仅是运气或某种确认偏差-这些专家的品味有潜在的一致性。即使你和他们都不能定量地描述他们是如何做他们正在做的事情,它也是清晰可见的。即使没有仪表盘和A/B考试,优秀的教师也确实能够始终如一地成为优秀的教师,在某种程度上,其他人也是始终如一地认可这一点。当然,我们可能需要观察一段时间,才能看到一位专家始终如一地发表见解,而不是偶然的-这就是为什么知识型员工的面试如此困难!-但很明显,一些专家的想法比其他专家的想法更一致地成功。

你怎么知道你的房子存在?毕竟,你不会直接体验到它:你与它的接触是由各种模糊的视觉处理层和你自己的错误记忆介导的。它之所以存在,是因为它可靠地位于上次的位置。它之所以存在,是因为当你在里面的时候,你会一直看到相同的图像,阴影角度会像你预期的那样受到季节的影响。它之所以存在,是因为别人可以和你谈论你的房子,说一些通过蜿蜒的听觉系统解读的东西,这些东西在某种程度上与你自己的模糊感知相匹配。它之所以存在,是因为你的手指可以感觉到门上门牌的形状,这与你很久以前签署的租约上的形状相匹配。

同样的逻辑告诉我们,当一位专家始终如一地做出被广泛认为是成功的决定,并能够用直觉上合理的修辞来解释他们的哲学时,很可能存在这样的问题。

你的房子更加系统化了-我们可以精确地测量它的高度,绘制蓝图,预测它的质量-但在我们拥有任何这些工具之前,社会仍然可以有效地谈论房子。在我们发现这些工具(以及我们想用它们提出的问题!)之前,我们所拥有的只有传统、专业知识、修辞和哲学。如果我们带着平衡的怀疑和好奇心倾听,这些本身就可能是强大的工具。

我不需要这么强烈的说教。在实践中,我们通常不能忽视领域哲学和专家的直觉。

有意义的哲学是有意义的--所以即使我们说要扔掉它,我们的直觉也常常与我们的决定纠缠在一起。

我在产品决策中经常看到这一点。例如,有人可能认为注册墙会因为各种哲学原因而成为糟糕的产品,但他们通过引用某一产品博客上关于该主题的A/B测试的一些数据,表面上证明了这一决定是合理的。

这些数据并不是他们决定抛弃注册墙的原因。这只是他们告诉别人(通常也是他们自己)他们为什么做出这个决定的原因。这一行为代表了对科学…的一种敬意。同时也违反了它的核心原则。

在教育领域,人们对成长心态干预非常兴奋。粗略的想法是:如果你能说服孩子们相信智力可以通过练习和努力工作而增长(就像他们的肌肉一样),那么他们实际上会在学校表现得更好。

在最近对这一领域干预的热情出现之前,斯坦福大学的卡罗尔·德韦克(Carol Dweck)和她的团队在研究中记录了一系列随机对照试验。这些干预措施可能是有效的!但是:该领域的定量结果实际上在效应大小上是相当适中的。

这些研究本身并不能证明人们对这一话题的兴奋程度是合理的;这是根据人们在这些干预中预先存在的直觉信念的程度而得出的结论。问题是,当教育界谈论这个话题时,他们主要是用这些研究来证明增长心态干预是合理的。

这种有动机的推理破坏了围绕决策的对话。我们应该使用这样的临时数据来支持-而不是取代-我们的哲学。

当两个人在一个没有系统化的领域中对一个问题存在哲学上的分歧,但只允许定量的争论时,他们最终会通过比他们自己的信仰更弱的数据打一场代理人战争。更糟糕的是:如果我们真的为这些领域发明了强大的预测系统,我们将需要我们的科学智慧,不受后即兴宣传的玷污。

我希望这一点很清楚,我不是在主张我们普遍放弃数据和系统思维。这种科学主义的痴迷是一种合理的防御机制!毕竟,在精确测量之前,物理学家们常常争论不休,而我们最终得到了phlogiston(也就是说,东西燃烧是因为它们含有一种叫做phlogiston的元素;phlogiston在燃烧时会消失在空气中;东西不能在罐子里燃烧,因为空气不能再吸收更多的phlogiston)。

在没有可靠系统的领域,我们无法测量我们的理解方式。

在这些领域建立系统是一项关键项目,可以取得进展。荟萃分析和多性状多方法测试确实帮助我们奠定了一些基础。然而,当田地的系统正在建设中时,我们必须小心,不要过于重视它们。它们的结构还不够健全。

直觉、哲学和专业知识提供了各种有用的试探性解释。如果我们随着时间的推移监测他们的预测,我们就会发现局限性,我们的理论也会不断发展。一直以来,我们都会发现模式,整合临时的系统概念,流畅地发展我们的信念,不管怎样都要拿出最好的证据。

快乐、归属感和赋权可能生活在这个数字的“定性黑匣子”里,但我们仍然可以解释它们是如何产生的。这些解释很可能涉及可衡量的投入和产出。但是,如果我们坚持通过订婚时间和净推广者得分来解释快乐,我们就会得到我们应得的快乐。