人工智能如何学习识别有毒的在线内容

2021-02-18 17:56:14

大小不一的社交平台都在努力使自己的社区免受仇恨言论,极端主义内容,骚扰和错误信息的伤害。最近,极右翼煽动者在1月6日这样做之前公开发布了关于冲进美国国会大厦的计划。一种解决方案可能是AI:开发算法以检测并警告我们有毒和煽动性言论,并将其标记为删除。但是,这样的系统面临着巨大的挑战。

近年来,网上仇恨或令人反感的语言的普及迅速增长,现在这个问题十分普遍。在某些情况下,在线上的有毒评论甚至导致了现实生活中的暴力事件,从缅甸的宗教民族主义到美国的新纳粹宣传,社会媒体平台都在依靠成千上万的人类评论家,努力缓解日益增长的有害内容。据报道,在2019年,由于反复暴露于此类令人痛苦的内容中,Facebook版主有遭受PTSD的风险。将此工作外包给机器学习可以帮助管理不断增长的有害内容,同时限制人们对其的接触。确实,许多技术巨头多年来一直在将算法纳入其内容审核中。

其中一个例子就是Google的Jigsaw,该公司致力于提高互联网的安全性。 2017年,它帮助创建了Conversation AI,这是一个旨在在线检测有毒评论的协作研究项目。但是,该项目开发的一种名为Perspective的工具遭到了广泛的批评。一个普遍的抱怨是它创建了一个通用的“毒性评分”,该评分不够灵活,无法满足不同平台的各种需求。例如,某些网站可能需要检测威胁而不是亵渎行为,而其他网站可能有相反的要求。

另一个问题是该算法学会了将有害评论与包含与性别,性取向,宗教或残疾有关的词语的无毒评论混为一谈。例如,一个用户报告说,简单的中性句子,例如“我是同性恋黑人妇女”或“我是聋哑的妇女”,会导致较高的毒性评分,而“我是男性”则会导致较低的评分。

针对这些问题,Conversation AI团队邀请开发人员训练自己的毒性检测算法,并将其参加在Kaggle上举办的三项竞赛(每年一次),该竞赛是Google子公司,以其机器学习从业者,公共数据集和挑战社区而闻名。为了帮助训练AI模型,Conversation AI发布了两个公共数据集,其中包含来自Wikipedia的超过一百万条有毒和无毒评论以及一项名为Civil Comments的服务。评论者对评论的毒性进行了评分,“非常有毒”标签表示“非常可恶,激进或不尊重的评论,很可能使您离开讨论或放弃分享您的观点,”和“有毒” ”标签的意思是“粗鲁,无礼或不合理的评论,在某种程度上可能会让您离开讨论或放弃分享您的观点。”由于采用了用于提高评分者准确性的抽样方法和策略,许多注释者(多达数千个)看到了一些注释。

拼图的第一个挑战是建立一个带有“有毒”,“严重有毒”,“威胁”,“侮辱”,“淫秽”和“身份仇恨”等标签的多标签有毒评论分类模型。第二个和第三个挑战集中在其API的更具体限制上:最大程度地减少对预定义身份组的意外偏见,并在仅英语数据上训练多语言模型。

尽管挑战带来了一些巧妙的方法来改进有害语言模型,但我们在内容审核AI公司Unitary的团队发现,没有经过训练的模型都没有公开发布。

因此,我们决定从最好的Kaggle解决方案中汲取灵感,并针对将其公开发布的特定目的训练我们自己的算法。为此,我们依靠现有的“变压器”模型进行自然语言处理,例如Google的BERT。在开放源代码转换器库中可以访问许多这样的模型。

这就是我们的团队构建Detoxify的方式,Detoxify是一个开放源代码,用户友好的注释检测库,用于在线识别不适当或有害的文本。它的预期用途是帮助研究人员和从业人员识别潜在的毒性评论。作为该库的一部分,我们发布了三种不同的模型,分别对应于三个拼图挑战。尽管针对每个挑战的顶级Kaggle解决方案都使用模型集合,这些模型将多个训练过的模型的得分平均,但我们获得的性能类似,每个挑战只有一个模型。可以通过一行代码轻松访问每种模型,并且所有模型和培训代码都可以在GitHub上公开获得。您也可以尝试在Google Colab中进行演示。

尽管这些模型在很多情况下都能发挥良好的性能,但重要的是还要注意它们的局限性。首先,这些模型将在与已训练数据相似的示例上很好地工作。但是,如果面对陌生的有害语言示例,他们很可能会失败。我们鼓励开发人员在代表其用例的数据集上微调这些模型。

此外,我们注意到在文本评论中包含侮辱或亵渎行为几乎总是会导致较高的毒性评分,无论作者的意图或语气如何。例如,句子“我厌倦了撰写这篇愚蠢的文章”将给出99.7%的毒性分数,而删除“愚蠢”一词将使该分数变为0.05%。

最后,尽管已经对其中一个发布的模型进行了专门的培训以限制意外的偏见,但所有三个模型仍然可能表现出一定的偏见,当使用现成的适度内容时,这可能会引起道德问题。

尽管在自动检测有毒语音方面取得了长足的进步,但是除了简单地记住特定的单词或短语之外,我们还需要很长的路要走,模型才能捕捉到我们语言背后的实际,细微的含义。当然,对更好,更具代表性的数据集进行投资将产生渐进的改进,但是我们必须走得更远,开始在上下文中解释数据,这是理解在线行为的关键部分。如果只看文字,很容易会错过社交媒体上看似良性的文字帖子,并带有图像或视频中的种族主义象征意味。我们知道,缺乏背景往往会导致我们自己的错误判断。如果AI有机会取代大规模的人工工作,那么我们必须为模型提供全面的视图。