现代谷歌级别的语音到文本模型发布

2020-09-23 23:32:23

我们很自豪地宣布，我们已经从头开始构建并发布了适用于以下语言的高质量(即与高级Google模型不相上下)语音到文本模型：

您可以在我们的存储库中找到我们的所有模型以及示例、质量和性能基准。此外，我们还投入了一些时间使我们的模型尽可能易于访问-您可以尝试我们的示例以及PyTorch、ONNX、TensorFlow检查点。您也可以通过TorchHub加载我们的模型。

以下是现有ASR解决方案和方法在我们发布之前遇到的一些典型问题：

预先培训的模型和食谱不能很好地推广，即使是原样也很难使用，依赖于过时的技术；

首先，我们试图通过发布世界上最大的俄语口语语料库(参见我们在Habr的帖子)来缓解社区的一些问题。现在我们试着从以下几个方面来解决这些问题：

正如您在我们的基准测试中看到的那样，我们的模型被设计成对不同的领域都是健壮的；

我们认为，现代技术的使用应该简单得令人尴尬。在我们的工作中，我们遵循以下设计原则：

模型应该跨域泛化，应该有一个表面上针对特定领域量身定做的通用解决方案，而不是反之亦然；

现在我们能压缩的最小模型大约是50兆字节。我们仍然计划将我们的企业版模型压缩到20兆字节，而不会损失保真度。我们还计划为其他流行语言发布Community Edition模型。

2020-9-23 20:1

2020-9-23 14:2

2020-9-23 11:55

2020-9-23 9:37