揭秘谷歌翻译:如何借助多项新兴 AI 技术提高翻译质量

文章正文
2020-06-09 00:29

6 月 6 日消息,据国外媒体报道,谷歌表示,它已在提高没有大量书面文本语料的语言的翻译质量上取得了进展。在一篇即将正式发表的博客文章中,该公司详细介绍了助力提升谷歌翻译(Google Translate)所支持的 108 种语言翻译质量的新创新技术(特别是缺乏语料数据的约鲁巴语和马拉雅拉姆语)。

谷歌翻译服务平均每天翻译 1500 亿个单词。

自谷歌翻译首次亮相以来的 13 年里,神经机器翻译、基于重写的范式和设备端处理等技术的出现和改进,助力该平台的翻译准确性取得不小的飞跃。但直到近年,即便是最先进的翻译支持算法也一直落后于人类的表现。谷歌以外的努力充分说明了这个问题的严重性——旨在使得非洲大陆的数千种语言可自动翻译的 Masakhane 项目,至今还没有走出数据收集和转录阶段。Mozilla 致力于建立一个开源的语音转录数据收集平台 Common Voice,自 2017 年 6 月推出以来也只审查了 40 种语音。

谷歌称,它在翻译领域所取得的突破并不是由单一技术驱动的,而是针对低资源语言、高资源语言、总体质量、延迟和整体推理速度的多项技术共同作用产生的。在 2019 年 5 月到 2020 年 5 月之间,根据人工评估和 BLEU(基于翻译系统翻译和人工参考翻译之间相似性的衡量标准),谷歌翻译在所有语言中平均提高了 5 分以上,在 50 种语料资源最少的语言中平均提高了 7 分以上。

混合模型和数据挖掘器

这些技术中的第一个是转换模型架构——一种混合架构,包括一个 Transformer 编码器和一个用 Lingvo 实现的递归神经网络 (RNN)解码器,后者是一个用于序列建模的 TensorFlow 框架。

在机器翻译中,编码器通常将单词和短语编码为内部表示形式,然后由解码器生成目标语言的文本。基于 Transformer 的模型是谷歌研究人员在 2017 年首次提出的,在这一点上它比 RNN 更有效,但谷歌表示,它的研究表明,翻译质量的提高主要来自 Transformer 的一个部件 : 编码器。这可能是因为虽然 RNN 和 Transformer 都是为处理有序的数据序列而设计的,但后者并不要求按顺序处理数据序列。换句话说,如果涉及的数据是自然语言,Transformer 不必先处理好句子的开头才处理句子的结尾。

然而,RNN 解码器在推理时间上仍然比 Transformer 中的解码器要 “快得多”。谷歌翻译团队认识到这一点,于是在将 RNN 解码器与 Transformer 编码器耦合之前,对 RNN 解码器进行了优化,以创建低延迟、质量及稳定性均比此前所使用的 RNN 神经机器翻译模型更胜一筹的混合模型。原来使用的 RNN 神经机器翻译模型已有 4 年历史。

2006 年上线不久以来,谷歌翻译模型各种语言的 BLEU 得分提升趋势

除了打造新颖的混合模型架构之外,谷歌还升级了一个有几十年历史的爬虫程序。该程序用来从文章、书籍、文档和网络搜索结果等内容中的数百万条示例翻译中编制训练语料。该新数据挖掘器基于支持 14 个语言对的嵌入模式,而非基于词典模式,也就是说它是使用实数向量来表示单词和短语 , 更多地聚焦于精确性 (检索数据中的相关数据部分),而非检索(实际检索的相关数据总量)。产出效果方面,谷歌说这使得该数据挖掘器提取到的句子数量平均增加了 29%。

噪声数据和迁移学习

翻译性能提升的另一来源是一种建模方法,它能更好地处理训练数据中的噪声。据观察,噪声数据 (含有大量无法正确理解或解释的信息的数据)会损害语料数据丰富的语言的翻译质量。所以,谷歌翻译团队部署系统来给使用噪声数据训练的模型的示例打分,进而筛选出 “纯净”的数据。实际上,这些模型一开始基于所有的数据进行训练,然后逐渐基于更小、更纯净的数据子集进行训练,这种方法在人工智能研究领域被称为课程学习。

对于资源较少的语言,谷歌在谷歌翻译中采用了一个回译机制,来强化并行训练数据,即语言中的每个句子都与其译文相配对。(机器翻译传统上依赖于源语言和目标语言成对句子的语料库的统计。)在该机制中,训练数据与合成的并行数据自动对齐,目标文本为自然语言,而源文本则由神经翻译模型生成。结果是,谷歌翻译充分利用更丰富的单语文本数据来训练模型,谷歌称这对提高翻译流畅性特别有帮助。

谷歌地图自带的翻译功能

谷歌翻译现在还采用 M4 建模方法,即用一个单一的巨型模型——M4——来在多种语言和英语之间进行翻译。(M4 最初是在去年的一篇论文中提出的,该论文证明,在基于来自 100 多种语言的 250 亿对句子进行训练后,M4 提高了 30 多种低资源语言的翻译质量。)M4 建模让谷歌翻译中的迁移学习成为可能,因此,通过基于法语、德语、西班牙语等高资源语言 (它们有数十亿条并行示例语料)的训练获得的见解,可以应用于低资源语言的翻译,如约鲁巴语、信德语和夏威夷语 (它们只有数万条示例)。

展望未来

谷歌称,自 2010 年以来,按照 BLEU 标准(满分 100 分,谷歌翻译水平每年至少提高 1 分,但自动化机器翻译的问题并没有得到解决。谷歌承认,即使是它的增强模型,也会出现各种错误,如合并一种语言的不同方言,产生明显的字面翻译,以及在特定主题内容和非正式语言或口语上表现糟糕等等。

这家科技巨头正想方设法来解决这一挑战,包括借助它的谷歌翻译社区。该游戏化项目招募志愿者来翻译单词和短语或者检查翻译是否正确,借助他们来提高低资源语言的翻译质量。就在今年 2 月,结合新兴的机器学习技术,该项目为谷歌翻译增加了对总共 7500 万人使用的五种语言的支持,包括基尼亚卢旺达语、奥里雅语、鞑靼语、土库曼语和维吾尔语。

谷歌并不是唯一一家追求真正通用的翻译工具的公司。2018 年 8 月,Facebook 公布了一种人工智能模型,该模型结合使用逐字翻译、语言模型和回译来超越语言配对系统。最近,麻省理工学院计算机科学和人工智能实验室的研究人员也提出了一种无监督学习模型——一种从没有明确标记或分类的测试数据中学习的模型——它可以在没有直接的双语翻译数据的情况下在两种语言的文本之间进行翻译。

谷歌在一份声明中表示,它 “非常感谢”学术界和产业界在机器翻译领域的研究成果,其中一些研究为谷歌自身的项目带来了启发。 “通过结合利用和拓展近期的各种技术进步,我们完成了谷歌翻译最近的改进。”  该公司说,“经过此次升级,我们很自豪能够提供相对连贯的自动翻译,哪怕是所支持的 108 种语言中语料资源最少的一种语言。”

文章评论