AAAI 2020 | 中科院自动化所：通过识别和翻译交互打造更优的语音翻译模型

马上科普尚尚

发布于 2020-05-13 16:44:43

8780

发布于 2020-05-13 16:44:43

本文对中科院宗成庆、张家俊团队完成、被 AAAI-20 录用的口头报告论文《Synchronous Speech Recognition and Speech-to-Text Translation with Interactive Decoding》进行解读。

论文：https://arxiv.org/abs/1912.07240

语音翻译技术是指利用计算机实现从一种语言的语音到另外一种语言的语音或文本的自动翻译过程。该技术可以广泛应用于会议演讲、商业会谈、跨境客服、出国旅游等各个领域和场景，具有重要的研究价值和广阔的应用前景。

近年来，随着人工智能技术在语音、翻译等相关领域的蓬勃发展，语音翻译技术逐渐成为学术界和企业界竞相研究的热点。当前的语音翻译系统通常由语音识别、机器翻译和语音合成等多个模块串联组成，方法简单，但面临着噪声容错、断句标点、时间延迟等一系列技术难题。

端到端的语音翻译模型在理论上可以缓解级联系统的缺陷，它通过直接建立源语言语音到目标语言文本的映射关系，一步实现跨模态跨语言的翻译，一旦技术成熟，理论上可以让语音翻译更准更快，极大地提升模型的性能。我们发现语音识别和语音翻译两个任务是相辅相成的。

如图1所示，

图1语音识别和语音翻译交互示例

相比于直接将原始语音作为输入，如果能够动态获取到识别出的文本信息，语音翻译将变得更加容易；而翻译出的结果也有助于同音词识别的消歧，使识别结果更加准确。因此，我们希望设计一种交互式的模型，让语音识别与语音翻译两个任务可以动态交互学习，实现知识的共享和传递。

方法

针对上述问题，中科院自动化所自然语言处理组博士生刘宇宸、张家俊研究员、宗成庆研究员和百度公司合作提出了一种基于交互式解码的同步语音识别与语音翻译模型。如图2所示，

图 2 基于交互式解码的同步语音识别与语音翻译

我们使用基于自注意力机制的Transformer模型作为主框架，语音识别任务和语音翻译解码任务共享同一个编码器，在解码器中加入一个交互注意力机制层，实现两个任务的知识交互和传递。如图3所示，

图3 交互注意力机制层

交互注意力机制层包含一个自注意力模块和一个跨任务注意力模块。其中前者用于提取当前任务输出端的特征表示，后者用于提取另一个任务输出端的特征表示，两者通过一个线性插值函数融合得到包含两个任务信息的特征表示。

在训练阶段，两个任务同时优化；在解码阶段，两个任务同步进行。如此，在预测下一个词的过程中既可以用到当前任务的已生成的词语，也可以利用到另一个任务上已生成的词语。为了进一步提升语音翻译的性能，我们采用了一种wait-k的方法，使得语音翻译任务相比语音识别任务延迟k个词语进行，以获得更多更可靠的文本信息作为辅助。

实验结果

目前语音翻译数据十分匮乏且质量不高，为此我们构建了一个新的语音翻译数据集。我们从TED网站上爬取了视频和字幕文件，从中提取出音频、英文字幕和多语言翻译字幕，得到了语音、识别文本、翻译文本的对齐语料。这里使用了英德、英法、英中、英日四种语言，前两种属于较为相似的语言对，后两种是不相似的语言对。

语音识别和语音翻译的结果分别使用词错误率(WER)和BLEU进行衡量。我们与多个强基线模型进行了对比，包括由语音识别和机器翻译模型串联组成的级联系统(Pipeline)，在语音识别语料上进行预训练的端到端语音翻译模型(E2E)，语音识别和语音翻译共享编码器的多任务模型(Multi-task)，以及一个两阶段模型(Two-stage)(第一阶段解码器用于获取识别文本的中间表示，第二阶段解码器基于编码器的表示和第一阶段解码器的中间表示生成对应的翻译)。

表1不同模型在多个语言对上的实验结果

表1给出了不同模型在英德、英法、英中、英日不同语言对上的识别和翻译效果。可以看出在大多数情况下，基于交互式解码的同步语言识别与语音翻译模型的性能表现不管在语音识别任务还是语音翻译任务上都要显著高于预训练的端到端模型、多任务模型和两阶段模型。

在相似的语言对上基于交互式解码的模型可以超越级联系统，在不相似的语言对上也与级联系统可比。值得注意的是之前端到端的语音翻译模型几乎都很难达到级联系统的性能。

表2 wait-k对翻译性能的影响

为了进一步提升语音翻译的性能，我们让语音翻译任务相比语音识别任务延迟k个词语进行，以获得更多的文本信息作为辅助。表2给出了在开发集和测试集上不同的延迟词语数对于模型性能的影响。可以看出，虽然延迟词语会轻微影响识别任务的表现，但是语音翻译任务的性能可以得到提升。

表3 模型参数、训练速度和解码速度

我们也对比了不同模型的参数量、训练和解码速率。表3给出了模型的参数量大小、每秒的训练步数和每秒的解码句子数。可以看出，我们的模型较好的平衡了参数量和解码速率，相比级联系统，参数量获得的大幅降低；训练和解码速率显著低于两阶段模型；虽然解码速率略低于预训练端到端模型和多任务模型，但是我们的方法可以实现两个任务的同步解码。

相关细节可参考发表于人工智能顶级学术会议AAAI2020的论文：

Yuchen Liu, Jiajun Zhang,Hao Xiong, Long Zhou, Zhongjun He, Hua Wu, Haifeng Wang, and Chengqing Zong.Synchronous Speech Recognition and Speech-to-Text Translation with InteractiveDecoding. AAAI-2020. (available on https://arxiv.org/abs/1912.07240)

Youtube上也有学者介绍我们的工作：https://www.youtube.com/watch?v=ZgbUBmVFcBc

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-01-13，如有侵权请联系 cloudcommunity@tencent.com 删除

机器翻译