Google扩大语言范围,以服务印度的非英语使用者

2020-12-17 20:20:29

这种语言障碍继续助长了全球第二大互联网市场的数字鸿沟,该市场已经限制了数亿用户将全球互联网呈现给少数几个网站和服务。

因此,指望印度等新兴市场继续增长的美国科技巨头也就不足为奇了。越来越多的人尝试使更多的人可以访问Web及其服务。

恰当的例子:过去一年中,印度用户已使用Google的一项功能来快速将网页内容从英语翻译为印度语言,使用次数已超过170亿次。

迄今为止一直领导这项工作的谷歌周四公布了一些新的工作。该公司将印度视为用户最大的市场,并且今年承诺在未来几年内在该国投资超过100亿美元。该公司表示,计划在Google在印度和印度的研究中心对机器学习和AI方面进行更多的投资。使整个生态系统中的每个人都可以访问其AI模型。该公司还计划与以当地语言为用户提供服务的本地初创公司合作,并“大幅度”改善印度语言用户对Google产品和服务的体验。

在最后一部分,该公司今天宣布将在其某些服务中推出一系列更改,以使它们说更多的本地语言,并推出了一种全新的翻译语言方法。

除了当前可用的英语和印地语外,用户现在还可以在泰米尔语,泰卢固语,孟加拉语和马拉地语中查看其查询的搜索结果。谷歌在印度的搜索页面上添加了“印地语”标签后已有四年了。该公司表示,引入此标签后,印地语中的搜索查询量增长了10倍以上。例如,如果有人希望在泰米尔语中查看其查询,现在他们将能够在英语旁边设置“泰米尔语”标签,并在两者之间快速切换。

以本地语言获取搜索结果很有帮助,但通常人们也希望使用这些语言进行查询。谷歌表示,发现非英语输入是当今用户面临的另一挑战。该公司表示:“因此,即使他们确实希望以他们理解的当地语言查看结果,许多用户仍使用英语进行搜索。”

为了应对这一挑战,即使本地语言查询以英语键入,“搜索”也会在适当的地方开始以受支持的印度语言显示相关内容。公司计划在下个月推出该功能,该功能支持五种印度语言:印地语,孟加拉语,马拉地语,泰米尔语和泰卢固语。

Google还使用户可以更轻松地快速更改应用中显示结果所用的首选语言,而无需更改设备的语言设置。该功能目前在Discover和Google Assistant中可用,现在将在Maps中推出。地图支持9种印度语言。

同样,Google Lens的家庭作业功能使用户可以对数学或科学问题拍照,然后给出答案,并引导学生逐步了解如何到达那里,现在支持印地语。 Google印度高级产品经理Nidhi Gupta表示,印度是Google Lens的最大市场。

咨询公司Convergence Catalyst的首席分析师Jayanth Kolla表示,Google Lens的新功能可能会对一些印度创业公司构成威胁,例如由红杉资本支持的Doubtnut等在类似领域经营的公司。

Google高管还详细介绍了一种新的语言AI模型,他们将这种模型称为印度语言多语言表示(MuRIL),该模型在处理音译,拼写变化以及混合语言和其他细微差别方面提供了更高的效率和准确性。 Google Research印度研究科学家Partha Talukdar在周四的一次虚拟活动中说,MuRIL在使用罗马脚本编写印地语时为音译文本提供支持,这是以前的同类模型所缺少的。

该公司表示,它使用Wikipedia上的文章和来自名为Common Crawl的数据集的文本来训练新模型。它还对维基百科(通过Google现有的神经机器翻译模型提供)中的音译文本进行了培训。结果是,MuRIL处理印度语言的能力比以前更通用的语言模型更好,并且可以与已音译的字母和单词抗衡-也就是说,Google使用的是与其他字母或脚本最接近的对应字母。

Talukdar指出,事实证明Google所依赖的先前模型不可缩放,因为该公司必须分别为每种语言构建模型。他说:“为每个任务建立这种特定于语言的模型效率不高,因为我们经常没有此类任务的培训数据。” MuRIL的性能明显优于早期模型-原生文本为10%,音译文本为27%。由Google高管在印度开发的MuRIL现已使用了大约一年,现已开放源代码。

MuRIL擅长的许多任务之一就是确定句子的情感。 例如,“ Achha hua account bandh nahi hua”以前会被解释为具有否定含义,但MuRIL正确地将其识别为肯定的说法,Talukdar说。 或采用将人与地方进行分类的功能:“ Shirdi ke sai baba”以前被解释为地方,这是错误的,但MuRIL正确地将其解释为人。