专栏首页人工智能前沿讲习AAAI 2020 | 中科院自动化所:通过识别和翻译交互打造更优的语音翻译模型

AAAI 2020 | 中科院自动化所:通过识别和翻译交互打造更优的语音翻译模型

本文对中科院宗成庆、张家俊团队完成、被 AAAI-20 录用的口头报告论文《Synchronous Speech Recognition and Speech-to-Text Translation with Interactive Decoding》进行解读。

论文:https://arxiv.org/abs/1912.07240

语音翻译技术是指利用计算机实现从一种语言的语音到另外一种语言的语音或文本的自动翻译过程。该技术可以广泛应用于会议演讲、商业会谈、跨境客服、出国旅游等各个领域和场景,具有重要的研究价值和广阔的应用前景。

近年来,随着人工智能技术在语音、翻译等相关领域的蓬勃发展,语音翻译技术逐渐成为学术界和企业界竞相研究的热点。当前的语音翻译系统通常由语音识别、机器翻译和语音合成等多个模块串联组成,方法简单,但面临着噪声容错、断句标点、时间延迟等一系列技术难题。

端到端的语音翻译模型在理论上可以缓解级联系统的缺陷,它通过直接建立源语言语音到目标语言文本的映射关系,一步实现跨模态跨语言的翻译,一旦技术成熟,理论上可以让语音翻译更准更快,极大地提升模型的性能。我们发现语音识别和语音翻译两个任务是相辅相成的。

如图1所示,

图1语音识别和语音翻译交互示例

相比于直接将原始语音作为输入,如果能够动态获取到识别出的文本信息,语音翻译将变得更加容易;而翻译出的结果也有助于同音词识别的消歧,使识别结果更加准确。因此,我们希望设计一种交互式的模型,让语音识别与语音翻译两个任务可以动态交互学习,实现知识的共享和传递。

方法

针对上述问题,中科院自动化所自然语言处理组博士生刘宇宸、张家俊研究员、宗成庆研究员和百度公司合作提出了一种基于交互式解码的同步语音识别与语音翻译模型。如图2所示,

图 2 基于交互式解码的同步语音识别与语音翻译

我们使用基于自注意力机制的Transformer模型作为主框架,语音识别任务和语音翻译解码任务共享同一个编码器,在解码器中加入一个交互注意力机制层,实现两个任务的知识交互和传递。如图3所示,

图3 交互注意力机制层

交互注意力机制层包含一个自注意力模块和一个跨任务注意力模块。其中前者用于提取当前任务输出端的特征表示,后者用于提取另一个任务输出端的特征表示,两者通过一个线性插值函数融合得到包含两个任务信息的特征表示。

在训练阶段,两个任务同时优化;在解码阶段,两个任务同步进行。如此,在预测下一个词的过程中既可以用到当前任务的已生成的词语,也可以利用到另一个任务上已生成的词语。为了进一步提升语音翻译的性能,我们采用了一种wait-k的方法,使得语音翻译任务相比语音识别任务延迟k个词语进行,以获得更多更可靠的文本信息作为辅助。

实验结果

目前语音翻译数据十分匮乏且质量不高,为此我们构建了一个新的语音翻译数据集。我们从TED网站上爬取了视频和字幕文件,从中提取出音频、英文字幕和多语言翻译字幕,得到了语音、识别文本、翻译文本的对齐语料。这里使用了英德、英法、英中、英日四种语言,前两种属于较为相似的语言对,后两种是不相似的语言对。

语音识别和语音翻译的结果分别使用词错误率(WER)和BLEU进行衡量。我们与多个强基线模型进行了对比,包括由语音识别和机器翻译模型串联组成的级联系统(Pipeline),在语音识别语料上进行预训练的端到端语音翻译模型(E2E),语音识别和语音翻译共享编码器的多任务模型(Multi-task),以及一个两阶段模型(Two-stage)(第一阶段解码器用于获取识别文本的中间表示,第二阶段解码器基于编码器的表示和第一阶段解码器的中间表示生成对应的翻译)。

表1不同模型在多个语言对上的实验结果

表1给出了不同模型在英德、英法、英中、英日不同语言对上的识别和翻译效果。可以看出在大多数情况下,基于交互式解码的同步语言识别与语音翻译模型的性能表现不管在语音识别任务还是语音翻译任务上都要显著高于预训练的端到端模型、多任务模型和两阶段模型。

在相似的语言对上基于交互式解码的模型可以超越级联系统,在不相似的语言对上也与级联系统可比。值得注意的是之前端到端的语音翻译模型几乎都很难达到级联系统的性能。

表2 wait-k对翻译性能的影响

为了进一步提升语音翻译的性能,我们让语音翻译任务相比语音识别任务延迟k个词语进行,以获得更多的文本信息作为辅助。表2给出了在开发集和测试集上不同的延迟词语数对于模型性能的影响。可以看出,虽然延迟词语会轻微影响识别任务的表现,但是语音翻译任务的性能可以得到提升。

表3 模型参数、训练速度和解码速度

我们也对比了不同模型的参数量、训练和解码速率。表3给出了模型的参数量大小、每秒的训练步数和每秒的解码句子数。可以看出,我们的模型较好的平衡了参数量和解码速率,相比级联系统,参数量获得的大幅降低;训练和解码速率显著低于两阶段模型;虽然解码速率略低于预训练端到端模型和多任务模型,但是我们的方法可以实现两个任务的同步解码。

相关细节可参考发表于人工智能顶级学术会议AAAI2020的论文:

Yuchen Liu, Jiajun Zhang,Hao Xiong, Long Zhou, Zhongjun He, Hua Wu, Haifeng Wang, and Chengqing Zong.Synchronous Speech Recognition and Speech-to-Text Translation with InteractiveDecoding. AAAI-2020. (available on https://arxiv.org/abs/1912.07240)

Youtube上也有学者介绍我们的工作:https://www.youtube.com/watch?v=ZgbUBmVFcBc

本文分享自微信公众号 - 人工智能前沿讲习(AIFrontier),作者:刘宇宸、张家俊

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-01-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • SFFAI分享 | 周龙:同步双向文本生成【附PPT与视频资料】

    基于双向编码的BERT在11项自然语言理解任务上取得了惊人的效果,而目前主流的自然语言生成任务(包括机器翻译,自动摘要等)仍然采用单向解码,即从左到右依次产生目...

    马上科普尚尚
  • 【AIDL专栏】陶建华:深度神经网络与语音(附PPT)

    “人工智能前沿讲习班”(AIDL)由中国人工智能学会主办,旨在短时间内集中学习某一领域的基础理论、最新进展和落地方向,并促进产、学、研相关从业人员的相互交流。对...

    马上科普尚尚
  • SFFAI分享 | 连政:端到端语音合成【附PPT与视频资料】

    连政,中国科学院自动化研究所模式识别国家重点实验室16级硕博生。目前研究兴趣为多模态情感识别、语音合成和语音转换。

    马上科普尚尚
  • 一个UTF-8 BOM的坑

    小编前两天在用jmeter测试,使用CSV Data Set Config设置批量参数时,发现源数据文件的第一条数据总是读取失败。一通研究,最后发现原来是UTF...

    用户5521279
  • sublime Text 3添加在浏览器中打开功能

    Sublime Text 3 编写的 HTML 文件如何在浏览器中打开?可以在 HTML 文件中右键点击 Open in Browser 选项,这种方式经常出...

    botkenni
  • 详述 Sublime Text 打开 GBK 格式乱码的解决方法

      Sublime Text 是一个代码编辑器,其具有漂亮的用户界面和强大的功能,例如代码缩略图,Python 的插件,代码段等。还可自定义键绑定,菜单和工具栏...

    CG国斌
  • java之log4j的配置

    log4j是用来记录日志的。 软件的运行过程离不开日志.日志主要用来记录系统运行过程中的一些重要的操作信息,便于监视系统运行情况,帮助用户提前发现和避...

    似水的流年
  • springmvc 项目完整示例06 日志–log4j 参数详细解析 log4j如何配置

    日志信息的优先级从高到低有ERROR、WARN、 INFO、DEBUG,分别用来指定这条日志信息的重要程度;

    noteless
  • 使用log4j配置不同文件输出不同内容

    敲代码中很不注意写日志,虽然明白很重要。今天碰到记录日志,需要根据内容分别输出到不同的文件。 参考几篇文章: 感觉最详细:http://blog.csdn.ne...

    Ryan-Miao
  • Log4j自定义日志包(转载)

    log4j.properties中如果输出日志是html格式,配置log4j.appender.R.layout=com.zg.log4j.layout.Htm...

    用户1499526

扫码关注云+社区

领取腾讯云代金券