人工智能现在惊人地擅长于听起来人类

2021-01-08 21:42:41

合成声音无处不在。他们会在早上为我们提供指示,在白天通过电话引导我们,并在晚上通过智能扬声器播报新闻。随着用于制作它们的技术的改进,这些声音也变得越来越人性化。这是合成语音的最后一个领域:不仅复制我们所说的内容,而且复制我们怎么说的方式。鲁帕尔·帕特尔(Rupal Patel)领导东北大学的一个研究小组,研究语音韵律-我们用来通过语音传达意图和情感的音调,响度和持续时间的变化。 “有时人们将其视为锦上添花,”她解释。 “您有了消息,现在这是您如何调制该消息,但我真的认为这是使消息本身具有意义的支架。”帕特尔(Patel)说,在发现韵律是语音交流的唯一元素之后,她对韵律越来越感兴趣。这些患者即使无法清晰地说出声音,也能够发出表达声音。在2014年,Patel成立了一家公司,为不说话的人制作定制的合成声音。此后,VocaliD已扩展到商业品牌和影响者。多年来,合成语音已经走了很长一段路。 Siri九岁时是最老的虚拟助手-但在语音机器世界中,她还是个婴儿。至少从18世纪开始,人们就一直在尝试合成语音,当时奥匈帝国的一位发明家制造了人类声道的粗略复制品,可以表达整个短语(尽管是单调的)。当前的机器学习技术可以为人类语音建模,并具有笨拙的停顿和嘴唇sm打的感觉。不过,对于大多数现实系统而言,每秒进行数千个样本的训练是非常昂贵的。研究人员,包括VocaliD的研究人员,都在不断实施更新,更有效的方法。但是,即使人类和人工合成语音之间的剩余距离正在逐步缩小,真正栩栩如生的韵律仍然无法被最先进的系统所接受。也许仍然缺少的东西要求机器不仅要模仿人类,而且要像我们一样。