即使是最好的语音识别系统也表现出偏见,研究发现

2021-04-02 21:27:10

加入Interprise AI&amp中最重要的主题转换2021;数据。学到更多。

即使是最先进的自动语音识别(ASR)算法难以识别来自世界某些地区的人们的口音。这是荷兰癌症研究所阿姆斯特丹大学研究人员发表的一项新研究的首页,发现荷兰代表团理工大学,发现荷兰语言的ASR系统特定年龄组的讲话者,和原籍国比其他国家更好。

由于IBM的鞋带机器和奇迹的朱莉娃娃世界,语音识别已经走了很长的路。但尽管AI的进展取得了可能,但目前的语音识别系统处于最不完美 - 并且处于最严重的歧视性。在由华盛顿邮报委托的一项研究中,谷歌和亚马逊制造的受欢迎的智能发言者比本土用户的口音更少30%的可能性较少。最近,算法司法联盟的语音擦除项目发现,来自Apple,Amazon,Google,IBM的语音识别系统,以及微软为非洲裔美国语音的非洲裔美国声音与19%相比,统称为35%的单词错误率。

这项最新研究的共同构列出了调查荷兰语的ASR系统识别来自不同扬声器群体的演讲。在一系列实验中,他们观察到ASR系统是否可以沿着性别,年龄和口音的尺寸争论言论。

研究人员开始通过从CGN进行ASR系统摄取样本数据,用于培训AI语言模型来识别荷兰语的注释语料库。 CGN包含由荷兰的18至65岁的人们所讨论的录音,比利时的佛兰德地区,涵盖了讲话方式,包括广播新闻和电话对话。

CGN由1,185名女性和1,678名男性发表呼吸483小时的讲话。但要使系统更加强大,同革应用数据增强技术来增加培训数据的总时间“九倍”。

当研究人员通过从CGN的测试集运行训练有素的ASR系统时,他们发现它比口交风格更可靠地认识到女性演讲。此外,与年轻人相比,该系统努力认识到来自老年人的言论,可能是因为前群体并不令人欣慰。它更容易从母语人员与非母语人士讲述的言论。事实上,最糟糕的本土语言 - 荷兰语儿童 - 错误率比最佳非原生年龄组更好地左右20%。

一般来说,结果表明,系统最准确地解释了青少年,其次是老年人(65岁以上)和儿童。这甚至曾举行过荷兰词汇和语法的非母语人士。

正如研究人员所指出的那样,虽然在某种程度上无法去除蠕变到数据集中的偏差,但是一个解决方案正在减轻算法水平的这种偏差。

“[我们建议]框架问题,从预期,积极发现和开发情感偏见[解决ASR系统的偏见]的缓解策略,开发团队成分和实施过程,”研究人员在一篇文章中写道他们的工作。 “直接偏见缓解战略涉及多样化和旨在在数据集中的平衡代表。一个间接偏见的缓解战略处理多元化的团队成分:年龄,地区,性别等品种,提供了设计的额外镜头。他们可以帮助确保ASR更具包容性的发展环境。“

VidtureBeat' S使命是成为技术决策者的数字城市广场,以获得有关转型技术和Transact的知识。您网站提供有关数据技术和策略的基本信息,以指导您的领导您的组织。我们邀请您成为社区的成员,访问:门控思想领导者内容和对我们奖化事件的折扣访问,如转换2021:了解更多

成为会员