这些都是个人的思考和观察,其中一些可能看起来很固执己见,或者根本就是错的。请随意评论,我可能不会被冒犯。
1994年我在剑桥读研究生时,师从史蒂夫·杨(Steve Young)和托尼·罗宾逊(Tony Robinson),他们创造了一些世界上最好的语音识别系统。然而,我在最初的几天里学到的最重要的东西,是我从看过早期版本的“龙霸天下”中永远猜不到的东西。他们已经破解了它。一台功能适中的计算机可以将连续的自然语音转换成人们所说的文本,准确率约为95%,也就是说,这项技术已经比除了训练有素的专业人员之外的所有人都要好。
为什么直到最近几年语音识别才在日常使用中被采用?这项技术有许多隐藏的工业应用,但作为日常使用的实时用户界面,即与计算机对话,采用速度慢得令人难以置信。当我在90年代学习的时候,我读到过一种反向图灵测试,它证明了其中一个原因。志愿者们以为他们在对着电脑说话,但实际上是由一个人在“窗帘后面”打字来提供回应的。观察和随后的采访显示,当时人们根本不喜欢它。
我敢肯定,在某种程度上,这只是一种陌生,因此存在代际效应。我的孩子比我更多地与计算机交谈。然而,语音作为主要用户界面确实存在严重问题:
不成熟的技术:它还没有完全成熟--走进拥挤的咖啡店,说“嘿,siri…”。
然而,当我离开大学,在现实世界中工作时,我从语音识别工作中学到了一些东西,这些东西(对我来说幸运的是)对所有那些展示和讨论语音识别的人来说并不明显,他们仍然专注于听写。
我投身于开发可伸缩数字媒体产品的职业。在其他方面,我领导了BBC新闻在线的发展。然后在2000年,我决定应用我的语音技术知识,解决媒体行业的问题,同时也尊重我的预感,即人们仍然不喜欢与计算机交谈。
因此,在一家大型软件公司的资助下,我开发了一些产品,这些产品围绕着将语音识别应用于录制的语音。这出奇地简单,因为同一组中的另一家公司是SoftSound,由我在剑桥的老老师托尼·罗宾逊(Tony Robinson)创立。
我对托尼的演讲特别感兴趣,并欣然接受了与他在产品开发方面合作的机会。他已经成功地与世界上最好的系统竞争,但通过使用神经网络,他使用的内存和处理能力要少得多。从这个意义上说,我们领先了人群几十年,他们中的大多数人在2010年代中期转向了神经网络。
我的团队采用了SoftSound的语音识别算法,并设计了将它们与视频、文本和图像识别相结合的方法,为电视、电影和广播档案创建搜索引擎。我们创造了各种各样很酷的东西,比如编辑软件,只需剪切和粘贴脚本就可以编辑视频。对于热销来说,这有点超前了,但我们赢得了一些奖项,得到了很多好的新闻。
看到人们使用我们基于语音的搜索引擎是一种启示。它教会了我,人们喜欢发现错误,并以此为理由,即使是最明显有用的创新也会不屑一顾。这与YouTube上的苏格兰人与早期版本的Siri对话的片段类似。
我们工作的电视档案有各种背景噪音和音乐,识别准确率从实验室的95%降到了65%-70%左右。有趣的是,这仍然允许搜索引擎找到正确的剪辑。
问题是,如果我们向用户显示结果列表中的文本,尽管这些文本包含他们的搜索词,但他们的眼睛会被错误吸引(几乎每行都有一两个错误)。然而,这项技术正在发挥作用,没过多久就想出了一个解决方案:我们没有显示全文,而是显示了每个剪辑的静止图像和匹配的单词列表。
对我来说,与每个商展上看到的听写包相比,这是对这项技术的一次很大的利用。它真的很有用,而且不太依赖于改变任何人的行为。它扩展了已经变得无处不在的人类技能-通过键入关键字来搜索东西-并将其应用到更多的东西上:视频和网页。我们的标准演示包括在数百小时的视频中搜索一个关键词,然后反复点击下一步,看到视频跳到另一个,另一个人在不同的上下文中说出输入的单词。
现在,值得称赞的是Nuance和DragonDictate:到20世纪90年代末,他们已经创建了Dragon NaturallySpeaging,不再需要用户说话时词与词之间的间隙,很快,他们就像我们一样,将他们的技术作为工具包出售,以集成到任何应用程序中。
此外,尽管我不感兴趣,但当然也有各种各样的人使用语音识别进行听写-对专业人士来说,听写已经是一种规范,还有各种各样的人很难使用键盘。
无论是SoftSound、Entrotic还是Nuance,从上世纪90年代中期开始,我们年复一年地开玩笑说,“明年将是语音识别的重要一年”。不知何故,这终于悄悄地降临到了我们身上。
我在构建真实世界的应用程序时学到的经验教训,与我在过去几年中看到的行为相关。许多人仍然不喜欢与Siri交谈,因为他们有足够的手指空闲来打字。然而,就像我们成功地将搜索扩展到新媒体类型一样,Siri和它的同龄人也成功地将搜索扩展到了新的情况:开车、做饭、给孩子洗澡等:
这就是说,Siri推出已经整整十年了,当Audible开始给你的孩子读“50度”时,改变地图的路线,或者快速纠正Alexa仍然不是那么容易。
音频反馈不会给用户带来与图形用户界面一样令人放心的确定感。扫一眼就会确认我输入的卡号是正确的,但当你听到这些异常平静的话时,你不必异常地不耐烦,因为你的心会沉下去,“我听到了4659 1234 1234 1234。对吗?回答是或按一确认“。
至于错误,以及带有苏格兰口音的YouTube剪辑,到2016年,开玩笑的新闻故事要少得多,声称这是天生的种族主义技术。如果微软Office只为90%的人工作,那将会引起轩然大波。这是否意味着语音识别只是一种新奇的东西,而不是真正的产品、增强商业能力等?
然而,神经网络真的起到了拯救作用,特别是对于这类问题。事实证明,拥有足够的正确训练数据比了解口音之间的语音差异要重要得多-网络将找出这些差异是什么。
甚至在五年前,我们还需要为每个地区的口音培训系统,但现在,Siri要应对苏格兰口音,只需培训它的网络,让苏格兰人阅读已知的文本,即教网络一个单词的各种发音方式。
计算机让我们所有人都成为一心多用的人,有时我认为,作为一种界面,即使是用于人际交流,语音有时也会让我们倒退:我可以同时进行几次短信聊天,但我不能同时进行两次语音通话。文字和屏幕互动有一些真正的优势,语音甚至不应该试图与之竞争。
然而,语音技术要发挥其独一无二的潜力,还有很长的路要走。这对该行业来说是个好消息,因为越来越多的初创企业被资助来解决现实世界的问题,而不是由大公司来处理。
技术必须像人类一样善于倾听和说话,然后-在某些情况下-变得比我们更好。这里有几个我和其他人最近一直在做的项目的例子。
离开我们的耳机,语音并不像我所说的那样是线性的。在靠近说话的人时,我可能会对另一位听众低声说一句话,但仍然不会被任何人听到。在晚宴上,我可能会同时参与多个对话,因为在现实世界的3D空间中,很容易跟踪谁说了什么,并控制我的演讲的音量和方向,以针对特定的听众。
将语音从不同的说话者中分离出来的技术正在突飞猛进地出现。这既可以通过更深入地分析语音来实现,也可以通过将音频数据与其他来源相结合来实现,比如使用多个麦克风来测量相对音量和方向,或者通过使用摄像头的输入将嘴唇运动和面部表情添加到混合中。
2016年,谷歌提出了一种新的语音合成方法,使用神经网络WaveNet,它可以被训练成几乎产生任何类型的声音,然后用真实的人类语音进行训练。一旦经过训练,它就可以接受相当机器人合成的语音,然后让它听起来像人类。
如今,最新的发展被例行公事地分享,整个行业从谷歌、NVIDIA、微软和全球大学研究人员社区吸收最新想法,并在他们的支持下,将其扩展并应用于新的环境,增加来自自己利基专业的专业知识。
我花了很多时间在分析口音、发音错误和说话障碍的系统上。有些人很难理解,因为他们有不熟悉的口音,或者只是刚刚学习一门语言。我们可以通过给他们实时反馈来让他们更容易掌握发音,但也许我们不需要费心:变形口音和实时纠正错误都正在成为现实。
讲话不仅因口音不同而不同,还因情感和身体状态不同而不同。当一种情况让人听不懂时,不仅可以提高清晰度,还可以识别出哪里出了问题,也许可以对紧急呼叫进行分类,比如说话者受到中风、镇静、醉酒、脑震荡的影响,或者只是识别呼叫者是孩子,或者说一种特定的语言。
最后,通过监测语言的细微变化,早期识别某些严重的长期神经疾病是可能的。这可以在不去医院就诊的情况下完成,甚至不需要针对那些处于风险中的人。对于所有相关的人来说,方便的是,我们都在对着我们的手机和电脑说话,所以只需选择加入,并允许您的声音被分析,而不会因为被录音或被监听而危及机密性。
有了正确的训练数据,也许同样的技术可以被训练来识别你的咳嗽,实际上是否是一种新的持续性干咳。