走向全自动漫画翻译

2020-12-29 22:57:52

下载PDF摘要:我们解决了漫画,日本漫画的机器翻译问题。漫画翻译在机器翻译中涉及两个重要问题:上下文感知和多模式翻译。由于在漫画中文本和图像以非结构化的方式混合在一起,因此从图像中获取上下文对于漫画翻译至关重要。然而,如何从图像中提取上下文并将其集成到MT模型中仍然是一个悬而未决的问题。此外,用于训练和评估这种模型的语料库和基准目前不可用。在本文中,我们做出了以下四个贡献,为漫画翻译研究奠定了基础。首先,我们提出了多模式上下文感知翻译框架。我们是第一个结合从漫画图像获得的上下文信息的人。它使我们能够翻译气泡中的文本,而这些气泡不能不使用上下文信息而被翻译(例如,其他气泡中的文本,说话者的性别等)。其次,为了训练模型,我们提出了从成对的原始漫画及其翻译中自动构建语料库的方法,通过该方法可以构建大型并行语料库,而无需任何人工标记。第三,我们创建了一个新的基准来评估漫画翻译。最后,在我们提出的方法之上,我们设计了第一个全面的系统,用于全自动漫画翻译。