大型多语种视听配音

2020-11-10 09:58:09

下载PDF摘要:我们描述了一个将视频从一种语言翻译成另一种语言的大规模视听翻译和配音系统。源语言的语音内容被转录成文本、翻译,并使用原始说话者的声音自动合成成目标语言的语音。语音内容是通过合成说话者的嘴唇动作来翻译的,以匹配翻译的音频,在目标语言中创造出无缝的视听体验。音频和视频翻译子系统中的每一个都包含一个大规模的通用合成模型,该模型基于相应领域中数千小时的数据进行训练。这些通用模型在翻译之前被微调到特定说话人,或者使用来自目标说话人的辅助数据语料库,或者使用要翻译的视频本身作为微调过程的输入。这份报告提供了完整系统的架构概述,以及对视频配音组件的深入讨论。文中概述了音频和文本组件在整个系统中的作用,但没有详细讨论它们的设计。使用我们的系统生成的翻译和配音演示视频可以在以下的HTTPS URL上观看