Google推出了一种开源多语言语言模型,该模型支持16种印度语言,以帮助研究人员和学生以当地语言开发技术

2020-12-17 20:11:32

谷歌已经推出了一种针对印度语言的机器学习工具,以帮助研究人员,学生和初创企业热衷于建立具有该国几种语言通用框架的本地语言技术。该模型被称为印度语言多语言表示(MuRIL),旨在解决印度人对计算机系统的理解的担忧,包括其所有复杂性,例如音译,拼写变体,混合语言以及在印度语境中出现的其他特定用例。它还支持音译文本,例如使用罗马脚本书写印地语。 MuRIL是由Google印度研究部门开发的,目前支持16种本地语言和英语,该公司表示,在其他同类的公共机器学习模型中,印度语言覆盖率最高。该模型已使用公司自己的语言学习模型BERT(来自“变形金刚”的双向编码器表示形式)进行了训练,该模型目前用于解析其搜索引擎上的几乎所有英语查询。 " MuRIL是我们认为可以成为印度语言理解的下一个重大发展的起点。我们希望它将为研究人员,初创企业,学生以及对构建印度语言技术感兴趣的任何其他人提供更好的基础。 Google Research印度研究科学家Partha Talukdar说。 Talukdar表示,这种模型将充当将知识和学习从一种语言模型转移到另一种语言模型的共同基础,从而减少研究人员和初创公司训练机器学习模型所需的时间。 Google已使MuRIL免费开放源代码,可从其机器学习平台TensorFlow下载和使用。 Talukdar表示,他们已经完全在可公开获得的数据语料库上对模型进行了训练,以使研究人员更容易重现结果。 "在我们评估过的MuRIL的学术数据集上,我们发现它在本地文本上的性能明显优于早期模型,在音译文本上明显优于早期模型10%,在音译文本上优于大约27%,"塔卢克达说。新功能Google在周四的一次活动中,还通过其各种产品推出了一系列新的印度语言功能。这包括在英语和四种印度语言(包括泰米尔语,泰卢固语,孟加拉语和马拉地语)之间切换搜索结果的能力,为双语用户提供相关的本地语言内容,并在Google Maps中增加了对9种印度语言的支持。一项名为“作业帮助”的新功能还使学生能够学习如何使用Google Lens解决复杂的数学问题,例如二次方程式。学生可以使用Lens从Google应用的搜索栏中为问题拍照,并浏览逐步的指南和解释该解决方案的视频。这些发展之际,印度语言用户有望推动未来的增长,并在未来几年中占据该国互联网基础的大部分。 Google首席执行官Sundar Pichai在7月份曾表示,这家科技巨头计划在未来五到七年内在印度投资100亿美元,以巩固其在印度数字生态系统中的地位。重点关注的领域包括使印第安人能够以自己的语言负担得起的访问和信息,并开发与该国独特需求密切相关的新产品和服务。