人工智能在语音识别方面的表现优于人类

2020-10-22 18:32:57

跟踪并准确转录对话是人工智能(AI)研究中最大的挑战之一。卡尔斯鲁厄理工学院(KIT)的研究人员目前首次成功开发出一种计算机系统,该系统在识别这种潜伏期最短的自发语言方面比人类表现得更好。这是在arxiv.org上报道的。KIT信息学教授亚历克斯·怀贝尔(Alex Waibel)表示,当人们相互交谈时,会有停顿、口吃和犹豫,比如大笑和咳嗽。通常情况下,单词发音不清楚。这使得人们甚至很难准确地记录对话。到目前为止,这对人工智能来说更加困难。KITES是KIT的一家初创公司,KITES的科学家和员工现在已经编写了一种比人类更好、比其他系统更快的程序来执行这项任务。

Waibel已经开发了一种自动实时翻译器,可以将大学讲课从德语或英语直接翻译成外国学生说的语言。这款讲课翻译器自2012年以来一直在KIT的演讲厅使用。Waibel解释说,自发的识别是这个系统最重要的组成部分,因为识别中的错误和延迟会使翻译变得不可理解。在会话语言方面,人类约占5.5%。我们的系统现在达到了5.0%。然而,除了精确度之外,系统产生输出的速度也同样重要,这样学生就可以现场听授课了。研究人员现在已经成功地将这一时间缩短到了1秒。Waibel说,这是迄今为止报告的这种质量的语音识别系统达到的最小延迟。

错误率和延迟是使用标准化的、国际公认的、科学的交换机基准测试来测量的。这一基准(由美国NIST定义)在国际人工智能研究人员的竞争中被广泛使用,目的是建造一台在类似条件下识别自发语音的机器,接近人类,甚至超过人类。

根据Waibel的说法,快速、高精度的语音是进一步下游处理的关键步骤。它支持对话、翻译和其他AI模块,以提供更好的基于语音的与机器的交互。更多信息:Nguyen等人,Super-Human Performance in Online Low-Delay Recognition of Conversonal Speech。Arxiv:2010.03449[cs.CV]。Arxiv.org/abs/2010.03449。

引用:人工智能在语音识别方面优于人类(2020年,10月20日),从https://techxplore.com/news/2020-10-ai-outperforms-humans-speech-recognition.html检索到2020年10月22日。

本文档受版权保护。除为私人学习或研究的目的而进行的任何公平交易外,未经书面许可不得复制任何部分。提供的内容仅供参考。