Mozilla风向下深入开发,宣布拨款计划

2021-04-13 22:44:05

加入GamesBeat Summit 2021 4月28日至29日。今天注册免费或VIP通过。

2017年,Mozilla推出了DeepSpeech,这是一项潜入Mozilla Research的机器学习团队,专注于开放采购自动语音识别模型。在接下来的四年中,DeepSeech团队发布了更新的模型版本,能够转录讲座,电话交谈,电视节目,广播节目和“人类准确性”的其他现场流。但在未来几个月,Mozilla计划停止开发和维护DeepSpeech,因为公司转型为咨询作用,这将包括推出拨款计划,以资助展示深度申请的举措。

DeepSpeech不是唯一的开源项目,但它是最成熟的。百度发布的研究论文建模,该模型是最终的培训,性格级架构,可以在一系列语言中传输音频。 Mozilla的主要目标之一是实现转录词错误率低于10%,最新版本的预磨料英语模型实现了这一目标,平均左右的字错误率为7.5%。

Mozilla认为,DeepSpeech已经达到了下一步是在建设应用程序上工作的观点。为此,公司计划将该项目转变为有兴趣进一步“基于用例探索”的“人员和组织”。 Mozilla表示,它简化了持续的集成过程,以便使用最小依赖性获得深度跳跃和运行。随着公司清理文件并准备停止Mozilla员工保养的代码库,Mozilla表示它将发布工具包来帮助人们,研究人员,公司和任何其他有关方面使用DeepSpeech来构建基于语音的解决方案。

Mozilla在DeepSpeech的工作开始于2017年底,目的是开发一个型号的模型 - 语音 - 直接输入和输出字符。该团队希望设计一个系统可以通过监督学习使用Google的Tensorflow框架培训的系统,其中模型学会从标记语音数据集中推断模式。

最新的深度模型包含数百万参数,或从历史培训数据中学习的模型的部分。 Mozilla Research团队开始用一台运行四个Titan x Pascal GPU的单个计算机训练它,但最终将其迁移到两个服务器,每个服务器都有8个泰坦XPS。在该项目的早期,培训高性能模型大约需要一周。

在随后的几年中,Mozilla致力于缩小深度模型,同时提高其性能并剩下低于10%的错误率目标。英语模型从188MB缩小到47MB,内存消耗降至22次。 2019年12月,该团队在覆盆子PI 4的单个核心上设法获得“比实时更快的时间更快”。

Mozilla最初使用自由的数据集培训了DeepSeech,如Ted-lium和Librispeech以及有费勒和交换机等付费的语料库,但这些证明是不够的。因此,该团队与公共电视和广播电台,大学的语言学习部门以及他们认为的其他人可能会标记为言语数据分享。通过这项努力,他们能够为英语深度模型的培训数据量增加两倍。

灵感来自这些数据收集努力,Mozilla研究团队与Mozilla的开放式创新团队合作,推出了普通的语音项目,旨在收集和验证志愿者的言语贡献。常见的声音不仅包括语音片段,而且对于培训语音引擎的自愿贡献元数据,如发言者年龄,性别和口音。它还生长为包括特定目的和用例的数据集目标段,如通过“九”的数字“零”和“是”,“是”,“否”,“嘿”和“Firefox”。

今天,常见的声音是世界上最大的多语言公共领域语音集团之一,具有超过90多小时的语音数据,其中60种不同的语言,包括广泛的语言和较少使用的语言,如威尔士和克里瓦达。迄今为止,超过164,000人为数据集做出了贡献。

为了支持项目的增长,NVIDIA今天宣布它将投入150万美元的共同声音,以实现更多社区和志愿者,并支持雇用新员工。常见的声音现在将在Mozilla基金会的伞下运作,作为其举措的一部分,专注于使AI更值得信赖。

随着它的风化,Mozilla表示,它即将举行的赠款计划将优先考虑为核心技术做出有助于核心技术的项目,同时也展示其可能没有其他可行途径的“授权和丰富”的区域,以其他方式展示了基于语音的互动。 Mozilla发布了一个Playbook以指导人们如何使用DeepSpeech的CodeBase作为语音供电应用的起点,将在5月份公布更多详细信息。

“我们看到了成熟的开源语音引擎出现了。然而,生态系统仍然存在一个重要的差距:语音发动机 - 开放和封闭 - 不适用于世界语言,口音和言语模式的巨大条件,“Mozilla Foundation的执行董事Mark Surman,告诉Venturebeat通过电子邮件。 “对于数十亿个互联网用户来说,启用语音技术根本无法使用。 Mozilla决定将其努力集中在方程的这一侧,使语音技术包容和可访问。这意味着投资语音数据集而不是我们自己的语音引擎。我们正在向常见的声音递增,一个开源数据集专注于语言和目前在语音科技生态系统中所代表的口音。常见的语音数据可用于喂养[打开语音]框架......然后又允许更多人在更多的地方访问语音技术。我们[还]与NVIDIA密切合作,以匹配包容性语音技术方程的这两侧。“

VidtureBeat' S使命是成为技术决策者的数字城市广场,以获得有关转型技术和Transact的知识。您网站提供有关数据技术和策略的基本信息,以指导您的领导您的组织。我们邀请您成为社区的成员,访问:门控思想领导者内容和对我们奖化事件的折扣访问,如转换2021:了解更多

成为会员