什么数据无法做到

2021-04-01 19:51:29

托尼布莱尔通常在人群面前放松和魅力。但2005年4月,与伦敦电视台的观众中有一个女人,让他明显慌乱。 Blair,八年进入他的任期,成为英国总理,一直是改善国家卫生服务的使命。 N.H.S.是一个非常喜欢的,很多嘲笑,非常被忽视的英国机构,各种各样的怪癖和效率低下。当时,在合理的时期内令人难以理解的是医生的预约是难以置信的;生病的人经常被告知他们必须等待下一个可用的开放。布莱尔的政府繁华,熙熙攘攘的明亮的技术专家,决定通过设定目标来解决这个问题:医生将在48小时内看到患者的财务激励。

它似乎是一个明智的计划。但观众成员知道布莱尔和他的政府没有的问题。生活在国家电视台,戴安娜教堂冷静地向总理解释到了她儿子的医生在一周的时间内要求看到他,但诊所拒绝提前超过四十八小时任命。否则,医生会失败奖金。如果教堂希望她的儿子在一周内看到医生,她将不得不等到前一天,然后在8点拨打电话并坚持下去。在建立激励措施之前,医生不能很快预约;之后,他们不会迟到约会。

混乱下降。人们开始大喊大叫,布莱尔开始结结,一个国家观看了其领导人在一个经典的案例中剔除出错了。

布莱尔和他的顾问远离第一个争论自己善意的目标。每当你试图强迫真实世界做一些可以计算的东西,无意中的后果比比皆是。这是关于数据和统计数据的两本新书的主题:“计数:我们如何使用数字来决定deborah Stone的重要”(liveright),这警告了依赖数字的风险和“数据侦探” (河头),由Tim Harford,它显示了避免由数据驱动的世界的陷阱的方法。

两本书都有一段时间的数据的现象力量从未如此明显。 -19大流行证明了世界当你没有良好的统计数据时如何脆弱,总统选举将我们的报纸与民意调查和预测填补,所有这些都是为了派对洞察力。在一年的不确定性中,数字甚至都会成为一个舒适的源泉。当数字未能捕捉现实的不忠实时,我们似乎精确和客观性诱惑,我们就会感到背叛。

Tony Blair和他的政策Mavens所做的特殊错误足以保证自己的谚语:一旦有用的数字成为成功的衡量标准,它就停止了一个有用的数字。这被称为好的法律,它提醒我们,一旦你开始衡量它,人类世界就可以移动。 Deborah Stone写了关于苏联工厂和获得生产配额的农场,依赖于哪些工作和生计。需要纺织工厂生产由长度指定的织物量,因此调节织机以制造长,窄的条带。乌兹别克棉棉捡球机,判断收获的重量,会浸泡在水中的棉花,使其更重。同样,当美国的第一个横贯大的铁路建造时,在十六六十年代,公司是每英里支付的。因此,内布拉斯加州奥马哈外部的一部分,在宽弧,而不是一条直线上,增加了几英里的轨道。每当我们使用数字代理以供我们关心的事情时,麻烦就会出现。石头报价环境经济学家詹姆斯古斯塔韦斯:“我们倾向于得到我们衡量的东西,所以我们应该衡量我们想要的东西。”

但是,问题不容易解决。 Goodhart的法律周围的问题已经来到Haunt人工智能设计:当您共同的唯一语言是数字时,您如何将客观传达给您的算法?计算机科学家Robert Feldt一旦创建了一种被装满的算法,该算法被着陆在飞机载体上着陆。目的是将模拟平面带到温和的停止,从而在飞机的身体上注销尽可能少的力。不幸的是,在训练期间,该算法发现了漏洞。如果,而不是顺利地将模拟平面下调,它故意将飞机撞击到停止,而力将压倒系统并将其注册为完美零。 FELDT意识到,在他的虚拟试验中,算法在平面后反复破坏平面,但每次赚取顶部标记。

Warning: Can only detect less than 5000 characters

当然,I.Q.造成统计代理的熟悉问题;这是一个数字,无可救药地失败了,就像一个明确,绝对,不可变的“智力衡量标准一样。但是,这种限制并不意味着它没有价值。它对许多事情具有巨大的预测力量:收入,长寿和专业成功。我们的代理仍然可以作为某种东西的公制,即使我们发现很难定义某种东西是什么。

算上一切是不可能的;我们必须在某处绘制行。但是,当我们处理比医疗约会的时间和铁路轨道的时期处理模糊概念时,线条绘制本身就可以创造了麻烦。哈福斯给出了一个领域的两只绵羊的例子:“除了一个羊不是羊,这是一个羔羊。而另一只羊是严重怀孕 - 事实上,她在劳动中,即将出生。多少羊再次?“这样的问题不仅仅是思想实验的东西。我的一位朋友,作者和心理学家苏齐·克里昂,在-19大流行期间娶了她的丈夫,当时怀孕了三十九个星期。由于当时的限制,可以参加她的婚礼的人数仅限于十。新生婴儿将算作人们的这种目的。在大日之前,她和新郎在劳动中进入劳动,她和新郎将不得不为他们的直系亲属的成员不用,或者在家里离开新生儿。

世界并不总是适合容易的类别。有时候必须对算法进行努力,以及如何计算它。因此,无保护的实验室实验的吸引力,可以指定所有相关数据并占用。梦想是你最终会得到真正细致的现实描述。虽然,德国的水族馆可能会对这种希望倾吐冷水。

Marmorkreb是一种小龙虾。它看起来像许多其他类型的小龙虾 - 带上的腿和斑驳的身体 - 但它的外观掩盖了一个特殊的差异:Marmorkreb再现无性化。 Marmorkreb与其后代遗传相同。

Michael Blastland,在“隐藏的一半:世界如何隐瞒其秘密”(大西洋书籍),解释说,当科学家们第一次发现这个陌生的生物时,他们有机会解决自然与培养的古老争论。这是理想的控制组。他们所要做的就是开始,是一群遗传相同的Marmorkreb青少年的大军,并在相同的环境中提升它们 - 在相同温度下给出相同量的水,相同的食​​物量,相同的光量 - 他们应该成长为相同的成年人。然后科学家可以改变环境条件并研究结果。

然而,由于这些遗传相同的Marmorkrebs在相同的环境中增长,出现了惊人的变化。有大小的差异,一个成长为另一个人的重量的二十倍。他们的行为也有所不同:有些人比其他人更具侵略性,一些首选孤独,等等。有些人像兄弟姐妹一样生活了两倍。这些Marmorkrebs中没有两个在他们的壳体上具有相同的大理石图案;它们的内部器官的形状甚至有差异。

科学家们已经走到了很大的长度来解决每个数据点;他们的遗憾的是捕捉和控制可能被衡量的一切。他们仍然发现自己因他们既不解释也不预测的变化困惑。即使是最大的波动,科学看不见,也可以随着时间的推移而放大,从而产生一个差异世界。自然是根据不可避免的随机性构建的,限制了现实的数据驱动的视野。

一群研究人员围绕千年的转向,开始招募人们,以研究他们所谓的“脆弱的家庭”。研究人员正在寻找有新生婴儿的家庭,以便多年来追踪孩子和父母的进步。他们招募了四千多个家庭,并在初次访问之后,该团队在儿童龄一年,三个,五,九,十五岁时再次看到家庭。每次,他们都收集了儿童发展,家庭情况和周围环境的数据。他们记录了有关健康,人口统计学,父母关系的细节,孩子们住在邻居的那种邻居,以及他们什么时候睡觉。在研究结束时,研究人员在每个孩子上接近了十三千万数据点。

然后团队做了一些相当聪明的事情。他们决定遏制一些最终数据块并邀请世界各地的研究人员来看他们是否可以预测某些发现。利用这些儿童达到这一点的一切,世界上最复杂的机器学习算法和数学模型都可以弄清楚孩子的生活是如何展开的,他们是十五的?

为了重点挑战,研究人员被要求预测六项关键指标,例如儿童的教育表现。要为每个人提供基准,该团队还建立了一个几乎明显的简单模型来制定预测。该模型仅使用四个数据点,其中三个被记录在孩子出生时被记录:母亲的教育水平,婚姻状况和种族。

正如您所预期的那样,基线模型并不是很擅长说出会发生什么。在其最佳的类别中,它设法仅解释了数据方差的大约二十多个。然而,更令人惊讶的是复杂算法的性能。在每个单一类别中,基于完整的模型,仅通过几个百分点的基线模型提高了基于完整的,显着丰富的数据集。在六个类别中的四个中,不是一个设法推动六个每年的准确性。即使是所有的最佳性能算法也可以预测儿童成绩平均值的差异的二十三个%。事实上,在整个板上,最好和最差的模型之间的差距总是小于最好的模型与现实之间的差距。随着团队所指出的,这意味着,这些模型比预测人类生活的路径“更好地预测彼此”。

这不是这些模型很糟糕。他们从胆压本能和猜测中迈进了一大倍;自199-五十年代以来,我们已经知道了,即使是简单的算法才能表达人类的预测。但是“脆弱的家庭”挑战令人信服的诱惑,相信数字持有所有答案。如果复杂的模型仅提供简单的简单的增量改进,我们将回到熟悉的问题,以及如何计算它。

也许还有另一个结论。当民意调查致力于预测选举结果时,我们听到呼吁越来越好的数据。但是,如果更多的数据并不总是答案,也许我们需要重新评估我们与预测的关系 - 以接​​受有关数字可以提供的不可避免的限制,并停止期待自己的数学模型携带我们的数学模型不确定性。

数字是现实世界的丰富和颜色的替代品。似乎是一个专业的数学家(像我)或经济学家(如Harford)似乎奇怪的是,让你说服这个事实。但要认识到数据驱动的现实视图的局限性不会淡化它可能。这两件事是可能的:对于数字来说,在现实的细微差别之前出现短暂,而在理解现实方面也是我们拥有的最强大的乐器。

大流行的事件提供了钻井例证。统计数据无法捕获病毒的真实收费。他们不能告诉我们它在重症监护室中工作,或者如何对这种疾病失去爱人的感觉。他们甚至不能告诉我们已经丢失的生活总数(而不是融入整洁的死亡人数,例如在积极测试的二十八天内发生的那些)。当正常性将返回时,他们无法肯定地告诉我们。但是,他们是,仍然是我们必须唯一的意思,我们必须了解病毒是多么致命,弄清楚了什么,并宣传,未来的可能期货。

数字可以包含在他们内的整个故事的人类存在。在肯尼亚,在五岁生日之前,四十三个孩子在每一千人死亡。在马来西亚,只有九。石头报价瑞典公共卫生专家汉斯罗萨琳(The Point):“这项措施需要整个社会的温度。因为孩子非常脆弱。有很多东西可以杀死它们。“另外九百九十一九十一位马来西亚儿童受到细菌,饥饿,暴力,有限的医疗保健所带来的危险。在这个单一数字中,我们有一个鲜明的图片

......