腾讯信息安全部征战世界机器翻译大赛获不俗战绩

北京时间5月22日下午4点,在刚结束的世界机器翻译大赛(WMT)中,信安代表队(由信息安全部北京基础研究组bojiehu(胡博杰)、ambyera(阿敏巴雅尔)、springhuang(黄申)三人组成)经过激烈的鏖战,最终获得汉英翻译 BLEU (Bilingual Evaluation Understudy) 打分指标第2名,BLUE-cased 打分指标第4名的好成绩,在另一项英汉翻译上,也取得了第7名的成绩。

  Fig.1   队名为TencentFmRD, 译为“腾讯基础研发”,详见比赛官方网站  http://matrix.statmt.org/matrix/systems_list/1892?metric_id=4

WMT全称Workshop on Machine Translation,是全球范围内最具权威的国际评测大赛,由来自欧洲和美国的高校、研究机构的研究人员联合举办的业界公认的国际顶级机器翻译比赛之一。近年来,几乎所有的研究机构在发表关于机器翻译新方法的论文时,都会以 WMT 数据集作为实验数据,并以 BLEU 评分来衡量方法的有效性,给出一个量化的、可比的翻译质量评估。从2006年开始到2018年,WMT一共举办了13届机器翻译比赛,每一届的角逐,都代表着全球翻译最尖端水准的较量。随着机器翻译技术的进步,传统翻译行业正在面临着一场变革。

Fig.2   各语种获得冠军的队伍

本届世界机器翻译大赛的比赛时间是5月15日-22日,参赛者还包括剑桥大学,阿里巴巴,小牛翻译,科大讯飞,云知声,CCNI,日本先进技术研究院,微软,中科院自动化所,德国亚琛工业学院,美国空军研究实验室,马里兰大学,爱丁堡大学,NTT,约翰霍普金斯大学,赫尔辛基大学等20多支队伍。其中中英和英中的角逐非常激烈。

信安代表队作为一个汉族和蒙古族的联合小团队,由springhuang(黄申)博士负责,员工bojiehu(胡博杰)和实习生ambyera(阿敏巴雅尔)组成,成员连续几日彻夜未眠训练模型、调整参数、优化算法,取得了距离第一名BLEU得分只有0.6个点的差距的不错成绩。而整场比赛中,英汉翻译和汉英翻译冠军均被中国团队(阿里,翻译君)获得,微软获得了传统的英德项目冠军,阿里巴巴获得了英俄双向、英土双向冠军,日本NICT也在爱莎尼亚语和芬兰语上获得第一。

Fig.3   参赛队员熬夜调参中

本次大赛,信安代表队(TencentFmRD)充分发挥了其团队技术在新闻场景和信息安全场景上的优势,采用自研的分词和NER(命名实体识别)技术,对新闻场景中的词汇和命名实体进行准确识别。同时,模型采用基于自注意力机制的Transformer框架,并采用了多模型融合技术(ensemble)、利用单语数据增强训练集(back translation)、多特征重排序(reranking)、迁移学习(transfer learning)、联合训练(joint learning)、微调系统(fine-tuning)。其中,重排序设计的特征大致有,覆盖度特征,从左至右翻译模型(l2r),从右至左翻译模型(r2l),目标端到源端反向翻译模型(T2S),正向翻译概率(pr(e|f)),反向翻译概率(pr(f|e)),源端和翻译候选的长度比和长度差等。最终通过最小错误率训练(MERT)来学习各个特征的权重。另外,我们尝试了用数据选择的方法对系统进行fine-tuning。除此之外,团队通过构造用户词典,并采用信安团队在新闻场景语音识别中的后处理算法,有效解决NER翻译可读性差的问题。

机器翻译是信息安全不可或缺的利器,团队自成立以来,一直致力于语音技术和翻译技术的结合。目前,英汉双向同声传译在业界已经并不鲜见,由于语料的丰富和容易获取(甚至购买),很多难题都被攻破。而团队则紧贴Low-resource小语种到汉语的NLP和ASR技术联合优化,打造小语种到汉语的同声传译。团队多次远赴新疆腹地,从民间采集语音语料,其自研的《汉语-维吾尔语双向同声传译系统》,基于去年获得全国第一的维吾尔语分词系统(参见文章 《全国维吾尔语分词技术比赛斩获冠军系统窥密》),结合自研的维吾尔语词首多词缀的词典建模技术,业界 state-of-art 并和维语特点(语速快,黏着,无限词汇)相结合的声学建模,语言模型建模 (hybrid word + sub-word unit, ngram 1 pass + lstm 快速 rescoring)技术,对于一般近讲维吾尔语能够达到 90% 以上的识别率,对于复杂场景也能达到 80% 以上的识别率,目前的瓶颈只是在翻译的准确性上。如今,系统已上线并应用在多个业务场景中。如演示视频:

维吾尔语-汉语同声传译系统 (确保清晰度,建议全屏播放)

同时,信息安全部希望通过在这个领域的多年积累和打磨,旨在打通藏语,蒙语,朝鲜语等小语种到汉语的巴别塔。目前,已经作为牵头单位,联合公司内部数团队承接了工信部和多名中国工程院院士发起的一带一路人工智能战略倡议书。

团队第一次在英汉这样的常规场景露面能够取得这样的成绩,让我觉得既在意料之外,又在意料之中。征战团队表示,WMT比赛是世界级比赛,能和世界级对手同台,更重要的是经验和历练。

同时,也借此感谢部门领导davidyu(于海涛)、damonju(鞠奇)对这个比赛和整个项目的支持,感谢信安成都的小伙伴多年来在分词和NER技术上的帮助,最后也感谢AI平台部的yuekuiyang(杨月奎) 给予的技术指点。

原文发布于微信公众号 - 腾讯TEG科技云端(TEGYunduan)

原文发表时间:2018-05-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

看Palm之父Jeff Hawkins另辟蹊径,剖析超级智能

编者按:Jeff Hawkins是美国发明家、计算机科学家与神经科学家,他主导研发了Palm与Treo,是Palm公司、Numenta公司及Handspring...

3098
来自专栏AI科技评论

DeepMind重大突破:AI进化出大脑级导航能力,像动物一样会“抄小路”

DeepMind团队称,其最新研发出的一个人工智能程序具有类似哺乳动物一样的寻路能力。

862
来自专栏大数据文摘

智能房屋+大数据,将改变房地产经济学

1997
来自专栏数据科学与人工智能

【数据分析】数据分析也要讲究打组合拳

导读 组合拳是拳击拳法的一种,在进攻当中利用各种单一拳法的组合连续攻击,使对手顾此失彼,达到击中对手的目的。联系到数据分析过程中,引申为采取一连套的方法实现一定...

2157
来自专栏机器之心

现场 | CVPR 2018第一天:精彩的Workshop与被中国团队进击的挑战赛

前伯克利 CS 系主任 Jitendra Malik:研究 SLAM 需要结合几何和语义

551
来自专栏新智元

谷歌大脑工程师给2018学术顶会划重点:对抗性学习+强化学习

1273
来自专栏目标检测和深度学习

谷歌开启 Naturalist 2018 挑战赛,大型物种分类技术有望突破

雷锋网 AI 研习社按:计算机视觉技术从 70 年代到现在,40 多年时间得到迅速发展,许多计算机视觉的应用出现在了生产生活领域。尤其是到了 2012 年,基于...

3255
来自专栏AI科技评论

【深度】Nature:我们能打开人工智能的“黑箱”吗?

编者按:人工智能无处不在。但是在科学家信任人工智能之前,他们首先应该了解这些人工智能机器是如何运作的,这也就是文中所提到的“黑箱”问题。在控制论中,通常把所不知...

2946
来自专栏新智元

【Nature】拥抱深度学习,不要过多苛求黑箱

【新智元导读】Nature 昨日刊发新闻特写,针对AI,特别是深度学习中的黑箱问题的来龙去脉进行分析。AI 中神经网络深度学习方法的黑箱问题是科学家们一直在尝试...

3706
来自专栏企鹅号快讯

拒绝boring,炫酷潮AI竞赛来袭!

韩梅梅 听说,上周AI界发生了一件大事? 李雷 对,李开复、王小川、张一鸣组了一个AI Challenger全球AI挑战赛,吸引了65个国家,1万多AI界武林高...

1855

扫码关注云+社区