NeurIPS 2020更广泛的影响实验

2020-12-25 03:34:39

今年,顶级机器学习会议NeurIPS要求作者发表更广泛的影响力声明。从通话中:

为了提供一个平衡的观点,要求作者陈述其工作的潜在更广泛影响,包括其道德方面和未来社会后果。作者应谨慎讨论积极和消极的结果

我听说明年ICML(另一个顶级ML会议)将增加相同的要求。

关于如何使计算机科学家更加思考他们所创造的潜在社会影响的问题已经存在了一段时间,越来越多的研究人员正在研究如何通过不同的设计方法,事实说明书以及技术来促进反思或透明度。但是,要求所有作者尝试解决出版物中更广泛的社会影响的要求是新事物。此类行动是改革运动的一部分,旨在彻底改变计算机科学的价值观,与传统观点认为算法和数学不在任何道德哲学范围之内。

在这里,我不会对这种行为的含义或作用有更大的疑问,而会更多地思考它是如何完成的,以及作为一个好奇的局外人,我有什么疑问(我不会发表) (在NeurIPS上),就可以查看有关更广泛影响声明的官方消息。感觉有点像在拼图。

尽管电话会议并未详细说明如何编写或使用声明,但针对作者的常见问题解答说:

我必须填写“更广泛的影响力”部分吗?回答:是的,请在提交内容中包括该部分以供审核。但是,如果您的工作非常理论化或足够笼统,以至于没有预见到特定的应用,那么您可以自由地写道“更广泛的影响”讨论不适用。

因此,至多需要对要求进行一些确认。在审核过程中如何使用它?

是否可以仅根据“更广泛的影响力”科拒绝我的意见?答:否。将要求审稿人根据评估标准对提交的内容进行评分。他们还将被要求检查广泛影响是否得到适当解决。一般而言,如果一篇论文提出的理论著作对社会没有任何可预见的影响,那么作者可以简单地声明“该著作没有提出任何可预见的社会后果”。如果一篇论文提出的方法或应用可能有合理的机会产生更广泛的影响,那么作者可以按照以下思路进行讨论:“这项工作对社会具有以下潜在的积极影响……。同时,这项工作可能会带来一些负面影响,因为……此外,我们应谨慎对待可能导致……的系统故障的结果。”

我检查了评估标准,这也是该电话会议的一部分,其中包括有关更广泛影响的句子:

无论科学质量或贡献如何,出于道德考虑,可能会拒绝提交内容,包括会造成或加剧不公正偏见或主要伤害或伤害目的的方法,应用程序或数据。

这有点模棱两可,但是由于他们在上面说过,不能仅根据更广泛的影响力这一部分来拒绝提交,我认为审稿人将不得不指向论文的其他部分(工作本身?)来论证一个问题。也许我们排除了科学合理且合乎道德的案例,但书面影响范围较差的案例却被排除在外?

我应如何撰写“更广泛的影响力”部分?答:有关其他动机和一般指导,请阅读Brent Hecht等人的白皮书和博客文章,以及AI管治中心的这篇博客文章。有关此类讨论的示例,请参见sec。 4本文来自Gillick等。

因此,我查看了一些链接,Hecht的博客文章提供了一些有关审阅者应如何阅读这些内容的重要信息:

作为作者,您也很可能是审稿人(尤其是今年!)。 NeurIPS的领导者应该直接解决这个问题,但是我们的建议是,您不是以评审的身份来评估所提交内容的影响力。相反,您应该评估*他们披露影响的严格度*。我们的建议还建议,随着“规范和标准的发展”,评审人员应采用“大帐篷”方法。

因此,审稿人应该判断作者报告影响的严格程度,但是他们不能以此为依据拒绝发表论文。 NeurIPS审阅者指南多了一点,基本上是在回应这一点,即审阅者的判断是关于作者是否在反映正面和负面潜在影响方面做得足够。

在此之后,审稿人指南将更广泛的道德关注问题提及为拒绝论文的可能原因:

提交内容是否引起潜在的道德问题?这包括造成或加剧不公正偏见或主要危害或伤害目的的方法,应用程序或数据。如果是这样,请简要说明。

是或否。请解释提交内容是否可能引起任何潜在的道德问题。请注意,您的评分应与此无关。如果审计委员会也对此表示关注,则具有道德与机器学习相交知识的专门审核人员将进一步审核提交的内容。您的职责是仅标记可能需要此附加修订步骤的论文。

对我来说,这件作品令人不满意的是,作为一名审稿人,我被告知仅评估其对正负潜力的报道程度,以评估更广泛的影响,但是我可以在论文中提出道德方面的关注。如果我没有注意到本文涉及道德方面的问题,但是令人信服的更广泛的影响引起了我的注意,那么我认为自己可以将该论文标记为道德方面的问题。如果上述专业道德审查人员决定拒绝该论文,那么我认为仍然可以公平地说,这不是仅基于更广泛影响而拒绝该论文的例子。但更广泛的影响力声明本来可以有效地移交引发火灾的比赛。

这使我想知道,如果我是一位作家,是否认为他们掌握了一些关于可能的道德后果的私人信息,而这些信息可能对于审阅者而言可能不可用,例如,基于我花了很多时间思考他们的特定主题,我有动力去分享吗?将其保留给自己似乎似乎稍微安全些,因为即使审阅者比我想象的要聪明,也不应使我的论文结果更糟。

NeurIPS现在结束了,因此一些作者可能正在以实际论文结果的形式寻求有关更广泛影响陈述的额外反馈。 NeurIPS计划主席发表了一篇带有一些统计信息的中级帖子。

今年,我们要求作者在其意见书中包含更广泛的影响力声明。我们没有以没有满足此要求为由拒绝任何论文。但是,我们将严格要求此部分包含在接受相机的相机专用版本中。从本节中的单词数量直方图可以看出,大约有9%的提交者没有这样的部分,并且大多数提交者都有大约100个单词的部分。

我们任命了一名道德顾问,并邀请了22名道德审查员(在此处列出),他们在AI政策,公平和透明以及道德和机器学习等领域具有专业知识。审稿人可以举报具有道德隐忧的论文,例如具有不适当损害风险的提交或可能由于不当使用数据而增加不公正偏见的方法等。受到严格技术审查但出于道德原因被举报的论文由道德评估评论者。

符合这些标准的论文有13篇,并接受了道德审查。在经过全面评估之后,出于道德考虑,只有四篇论文被拒绝,其中包括原始技术审核员,区域主席,高级区域主席以及计划主席。有条件地接受了7篇标有道德问题的论文,这意味着一旦提交了准备就绪的版本,最终决定将由地区主席评估。这些论文中有一些需要对更广泛的影响部分进行彻底的修订,以包括对潜在风险和缓解措施的更清晰的讨论,而另一些则需要对提交的内容进行更改,例如删除有问题的数据集。总的来说,我们认为道德审查是审查过程的成功且重要的补充。尽管只有一小部分论文获得了详细的道德评估,但它们提出的问题却是重要而复杂的,值得进一步考虑。此外,我们对道德审查员提供的高质量评估感到非常满意,区域主席和高级区域主席也对额外的反馈表示赞赏。

这似乎与会议前的描述基本一致,但似乎并没有排除人们担心,更广泛的影响力陈述可能是审稿人举报道德规范的原因。这使我更加想知道倡导者如何构想这项工作对作者的价值。

因此,我寻找证据证明NeurIPS领导层在引入这些变化时似乎有什么意图。我什至参加了一些相关的NeurIPS研讨会,以使自己成为一个知识渊博的计算机科学家。我了解的意图是:

为了使ML研究人员能够实践自己的工作,以反映他们工作中的道德含义,因此他们希望将来能够开发出更具社会责任感的技术。

为了鼓励更多“平衡”的研究报告,即“删除玫瑰色的眼镜”,如此处所述。

为了帮助作者确定未来的研究,他们可以做以帮助解决他们工作的负面社会成果。

我从倡导者那里比较一致地听到的一件事是,这是一个巨大的实验。这似乎是一个诚实的描述,表示他们认识到要求对道德进行反思是对CS研究人员的期望的重大改变,并且由于他们不知道如何最好地产生这种反思,因此他们正在进行实验。

但是,这暗示着这是一个巨大的开放式实验,似乎不利于在组织者对道德的愿景中建立研究人员之间的信任。不要误会我的意思,我赞成让计算机科学家更刻意地思考它们可能造成的不利影响。考虑到算法在不同决策应用程序中的可见性,以某种形式发生这种需求似乎是不可避免的。我在这里的观察只是,对于诚实地试图找出答案的人来说,关于该实验的价值在何处似乎有混杂的信息。是否正在思考可能具有内在价值的道德问题?这似乎是组织者所说的主要意图。但是,审查过程中的模棱两可以及我在会谈和小组讨论中看到的其他论点使我认为,围绕可能存在的隐患的透明性被认为是达到目的的一种更有价值的手段,即使其他人更容易权衡利弊,以便最终判断应该或不应该追求哪种技术。我认为,如果我是一位NeurIPS的作者,则被要求写一篇,关于如何使用这些陈述的模棱两可将使我很难知道我现在必须做好哪些激励措施,或者我应该在其中获得什么期望。演习发展的未来。从外部的角度来看,我认为应该达成什么样的共识。

寻找一个明确的目标函数可能只是天真,甚至是陈词滥调。也许现在还为时过早。但是,作为计算机科学家目睹这些事件,很难接受正在发生的巨大变化,但是没人知道确切的方向。信任那些很难正规化或故意非正规化的东西并不容易。尽管我可以说缺乏答案和令人困惑的消息促使我阅读更多有关ML伦理的文章,但是即使细节尚未全部解决,也许还是有一个大胆的举措可以采取大胆的行动。

我也忍不住回头看了看复制危机在2010年初的流行,从最初的争议到对问题的日益接受,再到持续寻找解决方案,这实际上将有助于改变两种培训方式。和激励措施。我认为我们在计算机科学的类似过程中仍处于起步阶段,但是许多人急于推动变革。