向计算机教授手语的种族

2021-03-11 00:43:35

U计算机曾经意味着击打键盘。然后它意味着触摸屏幕。越来越多地意味着简单地说话。超过100米的设备由Alexa,Amazon的语音助手提供动力,在世界上搁置。 Apple的产品,Siri,一个月的请求处理25亿。到2025年,这种技术的市场可能超过270亿美元。

但是,一组被遗忘了。世界卫生组织将430亿人数计为聋人或听力困难。许多使用标志语言进行通信。如果他们也不能使用这些语言与计算机交谈,则它们的风险被排除在以日常生活中的数字化之外。

许多人试图教授计算机来了解手语。近年来突破的突破性索赔,伴随着从触觉手套的所谓解决方案,捕获佩戴者的手指移动到检测不同的手形状的软件。其中许多人赢得了赞誉,同时疏远了他们对其缺视设计的人。 “我们的价值基本上是零,”聋人欧盟的执行董事Mark Wheatley说:“聋人联盟()的执行董事Mark Wheatley说。

很容易看出原因。手套是侵入性的,与身体磨损的相机等类似的技术解决方案一样。两者都要求用户适应听力人的需求。手形识别,同时有用,不能自行处理标志语言的全部复杂性,这也依赖面部表情和身体运动。一些项目已被推迟为在医院,警察站或教室等地方的人类口译员提供便宜的替代品,即使小错误的成本也可以很高。

但事情正在改善。研究小组越来越多地包括聋人科学家,正在询问技术如何最能为聋人的兴趣服务。标志语言的学生正在编译数据库,称为Corpora,充满了使用语言的示例。程序员正试图将它们转为有用的产品。

与口语语言一样,标志语言的世界有几百个 - 拥有自己的语法,成语和方言。再次类似于口语语言,语法书籍的硬和快速规则并没有真正捕获日常使用的微妙之处。对于复杂的想法,单一标志可以是速记。像发言者一样,签名者经常采取快捷方式,例如用单手代表双手标志。他们在他们的签名空间内设置参考点,这对于含义至关重要。正确解释所有这些比识别口头音节或书面字母更难。

生成数据也很棘手。 Microsoft,Microsoft,一个大型计算公司并在2019年发布的团队领导的研究估计口语语言的典型公开可用的语料库由大约1,000个不同的扬声器的大约十亿个单词组成。在一个等效的数据集中,只有十个人的标志可能有少于100,000个迹象。除了大量的数量,良好的语料库也需要多样化。这意味着不同背景,方言和流利程度的原生签名者之间的对话。因为聋人更常有身体残疾,而不是那些未受影响的听力的人,代表具有限制流畅性的运动的人很重要。

汉堡大学研究员托马斯汉克以及他的同事们组建了一个载有大约560小时的谈话的标志,其中包括在德国发现的许多方言。最初,汉克博士要求参与者进入汉堡。但是在城市,许多志愿者开始将当地的迹象纳入他们的通信。这是歪曲的数据。他说,他说,他为他的参与者提供了他的参与者,并在两年的最佳部分曾在移动工作室过境。

但是,收集数据是容易的。计算机是慢的学习者,并且必须明确地讲述每个示例意味着什么。这需要注释一切 - 每个运动,面部表情和重点的微妙。这需要时间,很多。八年后,汉克博士只有50小时的视频,他自信地被正确注释。

微软的研究人员正在使用众包来提高可用数据的数量和质量。 Danielle Bragg和Massachusett公司校园的同事正在开发一个智能手机版“战舰”,这是一个游戏,其中每个玩家通过指示网格上的位置来沉没对手的船只。在Bragg博士的版本中,每个网格广场与特定标志相关联。玩家不仅生成了自己的签名数据,还要确认他们对手制造的迹象的含义。

隐私是一种特别关注的,因为收集标志数据需要录制参与者的面孔而不是他们的声音。当汉克博士试图匿名记录人的姿态时,他们的特殊签名技术是如此独特,他们仍然可以识别。 Bragg博士计划使用面部过滤器,或用人为产生的替代品取代面部。这将干扰数据的质量,但她希望将较低的质量较低。

如果可以收集足够的数据,具有良好了解聋人文化和机器学习的研究人员可以实现令人印象深刻的结果。匈牙利公司的标牌25人团队包括三名聋人,并声称是该领域最大的人之一。该公司的专有数据库包含300,000个推荐视频,其中100名用户使用3,000多个来自美国手语(),其中一个最普遍的迹象。借助于华盛顿唯一的大学,唯一一所专门为聋学生提供帮助。

Signall的软件可以识别,但尚未以本机签名者进行通信的速度。它目前的产品标志1.0,可以将迹象翻译成书面英语,允许听力对话者在语音到文本软件的帮助下回应。但它依赖于佩戴特殊动作跟踪手套的签名者的三个相机 - 这一重大负担。

那可能很快发生变化。 Zsolt Robotka Signall的老板表示,该公司希望提供免费选择。它还将Finishing触摸与智能手机上的单个摄像头配合使用的产品。如果该技术可以集成到其他应用程序中,它可以允许聋人使用他们的手机来做搜索方向,或者仰望未知标志的含义,而无需诉诸口语形式的口语形式。

目前,Robotka博士的重点是将手语翻译成文本或演讲。在另一个方向上翻译造成更大的困难,一个是如何生成手语的视觉表示。标准方法是使用计算机生成的头像。但是,许多人陷入了“不可思议的山谷”,从计算机图形学中的概念,其中人造人类落在足够短的象征中,他们反而看起来令人毛骨悚然和令人不安。

弥漫山谷将允许广泛的双向沟通​​。创建可以识别一系列欧洲标志语言的智能手机应用程序,并在这些和口语演讲之间来回翻译,是两个新的跨国学术联盟:标志项目,以及智能自动标志语言翻译项目,也称为。两者都在合作,代表全国大陆的31个国家协会。

标志是针对英国,荷兰语,佛兰芒,爱尔兰和西班牙语标志语言,并除佛兰芒,他们的听力等价物外。与几所欧洲大学合作,旨在解决三个问题。一个是改善识别迹象及其含义的机器学习算法。另一个是解决如何最好地解释标志语言的“独特的语法”。最后,它将尝试创造更好的头像。汉堡博士博士的团队是14个合作伙伴的团队之一,具有相似的目标:即手语识别,强大的双向翻译和头像开发。

始终欢迎金钱和关注。但之前尝试自动化手语翻译的尝试也经常被引导,使生活方便那些具有正常听力的人,而不是真正试图帮助聋人。这一次,观察者希望更敏感的方法将产生更有用的产品。 “这对我们来说是一个很棒的机会,”我们没有时间对玩世不恭的时间来说。“ ■

本文出现在科学与amp;标题下印刷版的技术部分"未说明的理解"