关于先见之明行为的调查

2020-05-12 19:11:57

在10-20个小时的探索中,我们没有发现明确的“先见之明的行动”的例子-在缺乏更广泛的科学关注、类似问题的经验或对努力成功与否的反馈的情况下,提前几十年做出具体努力来解决严重和复杂的问题-尽管我们发现了6个案例,可能会成为进一步调查的例子。

我们简要调查了20个关于提前十年或更长时间采取行动消除或缓解问题的历史案例的线索,评估它们的“先见之明”。没有一个明显像LeóSzilárd的行动那样有先见之明,这是我们以前发现的此类行动的最好例子。这些行动未能显示出先见之明的主要方式是,在制定解决方案时可获得的反馈数量,以及采取行动的威胁发生前的几年。虽然我们对大多数案件都不确定,但我们相信其中六起是有希望进行未来调查的。

目前为人工智能的影响做准备的努力有几个特点,这些特点可能使它们不太可能成功。它们通常需要我们在几十年的时间范围内对新的威胁做出复杂的预测,其中许多努力在它们是否走在正确的轨道上得到的反馈很少,从更大的科学界得到的投入也很少,产生的结果在缓解人工智能风险的问题之外是无用的。

搜索过去具有相似特征的制剂案例可能是有用的。重要的是要知道,人类之所以未能提前解决问题,是因为这样做的尝试失败了,还是因为没有尝试解决方案。如果我们发现失败的尝试,我们想知道他们为什么失败,例如,如果事实证明,之前的大多数行动都不成功,是因为未能准确预测未来,我们可能希望将更多的努力集中在预测上。为此,我们使用以下一套标准来评估过去的努力是否具有“先见之明”,或者说它们在多大程度上代表了在没有反馈的情况下为减轻风险而采取的早期行动:1提前一年:在预期的威胁出现之前多少年采取了行动?

新颖性:威胁是新的吗,或者我们可以重复使用(可能需要修改)过去威胁的解决方案吗?

科学关注:解决这一威胁的努力是否得到了更大的科学界的认可?

复杂预测:解决方案是否需要复杂的预测,或者解决方案是否清晰且与问题密切相关?

特殊性:解决方案是针对威胁的,还是广泛有用且无论如何都可以完成的?

反馈:在开发解决方案时反馈是否可用,以便我们可以犯错误并从中吸取教训,或者我们需要在第一次尝试时就把它做好吗?

除了这些标准外,我们还注意到努力的结果是否已知,因为已知结果的案件可能会提供更多信息和更多成果,以供进一步调查。

潜在的感兴趣的案例是通过在互联网上搜索,询问我们的朋友和同事,并悬赏有希望的线索来发现的。我们整理了一份要研究的主题清单,这些主题的范围足够窄,可以在短时间内进行评估。这份清单包括采取行动的个人(如克莱尔·帕特森)、采取的具体行动(如莫斯科-华盛顿热线的安装)和威胁本身(如地磁风暴摧毁基础设施)。

一名研究人员花了大约30分钟对每个病例进行审查,并根据上一节描述的标准对它们进行了从0到10的评分。2得分为1表明该标准描述得很差,而得分为10则表明该病例表现出了非常好的标准。这些评级是高度主观的,尽管我们努力以一种一致的方式来评估这些病例,这样可以避免太多的假阴性。3通过采用加权平均值和以下权重计算综合得分:4除了这些评级外,我们还对每个评级进行了进一步研究的前景评估,并在电子表格中对评级进行了适当的注释。我们还对之前深入调查的两个案例进行了评级,以供比较。这些是Asilomar会议和LeóSilárd的行动。

下表显示了我们的收视率。这两个参考案例是斜体的。我们完整的评级和注释电子表格可以在这里找到。

对于一个案例,PQCRYPTO 2006会议,经过45分钟的调查,我们无法找到足够的信息来提供评估。

一般来说,我们调查的案例在这些标准上得分不高。平均得分为5.6分(满分10分),美俄导弹差距最低得分为3.0分,抗生素耐药性得分最高为7.11分。没有一个案例的得分高于我们的参考案例LeóSzilárd的行为(得分=7.24),我们认为这些案例具有足够的“先见之明”,值得研究。刚刚超过一半(11个)的案例获得了比Asilomar会议(评级=5.6)更高的评级,后者之前被认为没有那么有先见之明。

评级是高度不确定的,对于复杂主题的30分钟评论来说,这是很自然的。平均而言,我们的第90个百分位数估计比他们相应的第10个百分位数估计高出80%。除了4个案例外,所有案例的最低评级都低于对Asilomar的最佳猜测,超过一半的案例的最高评级高于LeóSzilárd的最佳猜测。

这些案例最不具先见之明的轴心是反馈和提前数年。6病例在溶液的严重程度、新颖性和特异性方面最为相似,综合评分平均损失0.20,0.30和0.20分。

抗生素耐药性和“不扩散核武器条约”这两个案例似乎特别有希望进行更多的研究,并相应地获得了7分和6分。其他五个病例的得分至少为5分,似乎没有那么有希望,但可能值得进行一些额外的研究。

虽然分配给每个案例的非常短的研究时间限制了我们自信地得出结论的能力,但我们排除了一些明显没有先见之明的案例,确定了一些有前途的案例,并粗略地描述了一些降低人工智能风险的努力可能与过去降低风险的努力不同的方式。

我们发现有四个案例是有先见之明的行动的糟糕例子:20世纪50年代末的美俄导弹差距、克莱尔·帕特森(Clair Patterson)反对使用含铅汽油的行动、19世纪英国为应对工业革命而进行的政策改革,以及莫斯科-美国核热线。所有这些案例所涉及的行动都是针对问题(或感知到的问题)的出现而采取的,而不是在预期中采取的,解决问题的方法相对简单,主要障碍是政治障碍。7有两个案例涉及基于高度可疑预测的行动:宗教启示录的准备工作8和“人口炸弹”一书以及作者保罗·埃利希的伴随行动。尽管这些案例中的行为者是根据后来被证明是不准确的预测采取行动,但这些案例确实与人工智能风险有一些相似之处。他们正在应对新威胁带来的严重后果的预测,他们在没有科学界帮助的情况下采取行动,他们也没有预料到在此过程中会收到大量反馈。然而,这些行动只是在威胁之前5-10年采取的,我们预计预测与现实之间的明显脱节将使人们更难从这些行动中吸取教训。

一些案例涉及已经出现的威胁,从某种意义上说,它们可以立即发生,但每年的风险足够低,一个理性的人可以预期未来的结果至少是十年后的结果。其中包括卡特里娜飓风、冷战时期的美国民防、福岛第一核电站、比较案例Asilomar会议以及北欧基因库。9其他10个案例涉及简单或不依赖复杂预测的解决方案。瑞士国家Redoubt依赖于长期预测,但与其说是复杂的解决方案搜索,不如说是国防上的一大笔投资。公元二千年数位问题很容易解决,即使在公元二千年数位问题发生前不久才采取行动。伊朗核协议(也许还有核不扩散条约)需要艰难的政治谈判,但似乎并不依赖于复杂的预测。

亚历山大·弗莱明(Alexander Fleming)在1945年的诺贝尔演讲中警告说,在没有监督的情况下广泛使用抗生素可能会导致抗生素耐药性。11我们不确定弗莱明的警告的影响,他是否采取了额外的行动来降低风险,或者这种担忧在科学界有多普遍,但我们的印象是,这不是一个广为人知的问题,他的警告是一个早期警告,他的判断在他演讲时通常得到了认真对待。他的警告比第一批记录的青霉素耐药细菌病例早了20多年,在我们的大多数标准上,抗菌素耐药性的威胁似乎与人工智能风险大致相似,尽管似乎在减少威胁的整个努力中都可以获得反馈。

“不扩散核武器条约”需要许多行为者采取许多行动,但它似乎需要对技术发展和地缘政治进行复杂的预测,以应对严重的威胁,是针对特定威胁的,反馈的机会有限。我们不确定在进一步的调查中,是否有任何具体的行动会被证明是有先见之明的,但它似乎是有希望的。

Open Quantum Safe是一个开源项目,旨在开发抵抗使用量子计算机的密码技术。量子计算对密码学的威胁有几个相关的特征,包括在几十年的时间范围内对一种新的威胁进行复杂的预测。我们找到了有关该项目或相关案例--2006年PQCRYPTO会议--成立情况的有限信息,但这个问题总体上看起来是有先见之明的。

地磁风暴准备应对太阳天气对电子和电力基础设施造成的严重破坏和破坏所造成的威胁,这可能是一场严重的全球灾难。12这些事件之间的预计时间是几十年或几个世纪,而减轻风险涉及可能针对特定问题的行动,需要对所涉及的物理问题以及我们的基础设施和机构如何应对进行复杂的预测。然而,我们不确定采取了哪些行动,何时采取了行动,以及是否有证据表明这些行动正在奏效。此外,科学界有大量投资,我们不确定在开发解决方案时有多少反馈可用。

巴拿马病是一种真菌感染,几十年来一直在全球传播,威胁着卡文迪什香蕉作为商业作物的生存能力。卡文迪什香蕉占香蕉出口的绝大多数,是哥斯达黎加和危地马拉等国粮食安全不可或缺的一部分。13早期行动包括减缓这种真菌的传播的措施,寻找取代卡文迪什的品种,呼吁增加香蕉品种的多样性,以及寻找能够杀死这种真菌的杀菌剂。虽然这些行动有许多反馈的机会,但其中一些涉及复杂的预测和寻找具体的技术解决方案,而且,从尚未遇到感染的大陆农民的角度来看,真菌的到来代表着未来某个不确定时间的离散事件。我们不确定这些是否是先见之明的好例子,但它们可能值得进一步调查。

我们的案例与降低人工智能风险的努力最不同的轴心是开发解决方案时可用的反馈水平。反馈的平均得分为3.8分,没有一个病例的得分高于7分。即使是最初看起来反馈很少的病例,事实证明也足以帮助那些正在做准备的病例。例如,卡特里娜飓风受益于从前几次飓风中吸取的经验教训,瑞士国民军受益于观察到其他行为者之间的冲突,提供了关于哪些军事装备和战术对可能的对手是可行的信息。假设这些结果具有代表性,这里有两种解读这些结果的方式:

反馈是丰富的:在各种各样的情况下反馈都是丰富的,所以我们在为先进的人工智能做准备的同时,也应该期待有反馈的机会。支持这一观点的是上述案例,这些案例最初预计不会得到反馈,即使是那些正在做准备的人也是如此,但它们仍然受益于反馈。

人工智能风险是不寻常的:人们普遍认为,降低高级人工智能风险的努力几乎没有可用的反馈,这种看法是正确的,在这方面,人工智能风险是独特的(或非常罕见的)。对这一观点的支持来自于对解决人工智能控制问题的一次性性质的论证。14例如,降低地磁风暴风险和抗生素抗药性的努力都涉及到一些特异性很高的行动和另一些特异性较低的行动。我们根据我们所知道的最具体的问题操作对这两个案例进行了评估。

由于我们对每个病例只进行了半小时的研究,我们对我们的得分高度不确定,所以我们为我们的最佳猜测(即“中位数”得分)分配了分数,并为每个病例的每个标准分配了第10和第90个百分位数的估计。这些应该被解释为我们预期的分数范围,经过几个小时的调查,我们会得到80%的可信度,而且高估或低估分数的可能性是相等的。我们通过将高估计和低估计建模为与平均值不相关的偏差来计算平均值的第10和第90个百分位数的估计,以便可以按照传播不相关误差的通常方式将它们相加。

此分数由根逻辑函数直接根据估计的年数计算,分别为0年、10年和20年,其值分别为2.75、7.1和9.6。

平均而言,这些病例在每一项标准上的综合得分都下降了1.35分。这在一定程度上是因为这些标准被赋予了很大的权重。如果我们使用未经加权的平均数来计算分数,案例反馈将丢失0.77分,提前数年将丢失0.39分,提前数年是平均分数最高的轴。

克莱尔·帕特森(Clair Patterson)对目前的世界状况做出了一些令人印象深刻的推论,他似乎相信,如果不进行干预,他观察到的问题将继续恶化。在这方面,他的行动是有先见之明的。但总的来说,他是在努力防止目前的问题变得更糟,而不是努力避免未来的问题。

为宗教启示录做准备是一个宽泛的范畴。我们试图在此类别中找到属于我们的目标参考类的示例,但通常找不到涉及几年前采取的特定操作的示例。我们不是很有信心不存在符合这些标准的例子。

北欧基因库解决的是每年的低风险,因此认为它是在解决未来的风险似乎是合理的。然而,第一次从种子库撤资发生得相对较快,这表明要么风险是短期的,要么解决方案不是高度针对长期风险的。

虽然地磁风暴的准备具有类似的质量,但似乎每年发生灾难性后果的风险足够低,而且为如此严重的结果所做的准备也足够具体,因此有资格成为一个有希望的案例,如下一节所述。

“也许有一天,商店里的任何人都能买到青霉素。还有一种危险,那就是无知的人可能很容易使自己剂量不足,让他的微生物接触到非致命量的药物,从而使它们产生抗药性。“。《回路机》,2018年3月31日。https://web.archive.org/web/20180331001640/https://www.nobelprize.org/nobel_prizes/medicine/laureates/1945/fleming-lecture.pdf.。

2014年,来自香蕉的出口收入占哥斯达黎加食品进口账单的40%,占危地马拉食品进口账单的27%。访问时间为2020年2月6日。http://www.fao.org/economic/est/est-commodities/bananas/bananafacts/en/#.XjyilyOIYuV.。

例如,埃利泽·尤德科夫斯基(Eliezer Yudkowsky)在“火箭对准问题”(Rocket Alignment Problem)中拐弯抹。“火箭对准问题--机器智能研究所。”访问时间为2020年3月26日。https://intelligence.org/2018/10/03/rocket-alignment/.