腾讯信息安全部征战世界机器翻译大赛获不俗战绩

北京时间5月22日下午4点,在刚结束的世界机器翻译大赛(WMT)中,信安代表队(由信息安全部北京基础研究组bojiehu(胡博杰)、ambyera(阿敏巴雅尔)、springhuang(黄申)三人组成)经过激烈的鏖战,最终获得汉英翻译 BLEU (Bilingual Evaluation Understudy) 打分指标第2名,BLUE-cased 打分指标第4名的好成绩,在另一项英汉翻译上,也取得了第7名的成绩。

  Fig.1   队名为TencentFmRD, 译为“腾讯基础研发”,详见比赛官方网站  http://matrix.statmt.org/matrix/systems_list/1892?metric_id=4

WMT全称Workshop on Machine Translation,是全球范围内最具权威的国际评测大赛,由来自欧洲和美国的高校、研究机构的研究人员联合举办的业界公认的国际顶级机器翻译比赛之一。近年来,几乎所有的研究机构在发表关于机器翻译新方法的论文时,都会以 WMT 数据集作为实验数据,并以 BLEU 评分来衡量方法的有效性,给出一个量化的、可比的翻译质量评估。从2006年开始到2018年,WMT一共举办了13届机器翻译比赛,每一届的角逐,都代表着全球翻译最尖端水准的较量。随着机器翻译技术的进步,传统翻译行业正在面临着一场变革。

Fig.2   各语种获得冠军的队伍

本届世界机器翻译大赛的比赛时间是5月15日-22日,参赛者还包括剑桥大学,阿里巴巴,小牛翻译,科大讯飞,云知声,CCNI,日本先进技术研究院,微软,中科院自动化所,德国亚琛工业学院,美国空军研究实验室,马里兰大学,爱丁堡大学,NTT,约翰霍普金斯大学,赫尔辛基大学等20多支队伍。其中中英和英中的角逐非常激烈。

信安代表队作为一个汉族和蒙古族的联合小团队,由springhuang(黄申)博士负责,员工bojiehu(胡博杰)和实习生ambyera(阿敏巴雅尔)组成,成员连续几日彻夜未眠训练模型、调整参数、优化算法,取得了距离第一名BLEU得分只有0.6个点的差距的不错成绩。而整场比赛中,英汉翻译和汉英翻译冠军均被中国团队(阿里,翻译君)获得,微软获得了传统的英德项目冠军,阿里巴巴获得了英俄双向、英土双向冠军,日本NICT也在爱莎尼亚语和芬兰语上获得第一。

Fig.3   参赛队员熬夜调参中

本次大赛,信安代表队(TencentFmRD)充分发挥了其团队技术在新闻场景和信息安全场景上的优势,采用自研的分词和NER(命名实体识别)技术,对新闻场景中的词汇和命名实体进行准确识别。同时,模型采用基于自注意力机制的Transformer框架,并采用了多模型融合技术(ensemble)、利用单语数据增强训练集(back translation)、多特征重排序(reranking)、迁移学习(transfer learning)、联合训练(joint learning)、微调系统(fine-tuning)。其中,重排序设计的特征大致有,覆盖度特征,从左至右翻译模型(l2r),从右至左翻译模型(r2l),目标端到源端反向翻译模型(T2S),正向翻译概率(pr(e|f)),反向翻译概率(pr(f|e)),源端和翻译候选的长度比和长度差等。最终通过最小错误率训练(MERT)来学习各个特征的权重。另外,我们尝试了用数据选择的方法对系统进行fine-tuning。除此之外,团队通过构造用户词典,并采用信安团队在新闻场景语音识别中的后处理算法,有效解决NER翻译可读性差的问题。

机器翻译是信息安全不可或缺的利器,团队自成立以来,一直致力于语音技术和翻译技术的结合。目前,英汉双向同声传译在业界已经并不鲜见,由于语料的丰富和容易获取(甚至购买),很多难题都被攻破。而团队则紧贴Low-resource小语种到汉语的NLP和ASR技术联合优化,打造小语种到汉语的同声传译。团队多次远赴新疆腹地,从民间采集语音语料,其自研的《汉语-维吾尔语双向同声传译系统》,基于去年获得全国第一的维吾尔语分词系统(参见文章 《全国维吾尔语分词技术比赛斩获冠军系统窥密》),结合自研的维吾尔语词首多词缀的词典建模技术,业界 state-of-art 并和维语特点(语速快,黏着,无限词汇)相结合的声学建模,语言模型建模 (hybrid word + sub-word unit, ngram 1 pass + lstm 快速 rescoring)技术,对于一般近讲维吾尔语能够达到 90% 以上的识别率,对于复杂场景也能达到 80% 以上的识别率,目前的瓶颈只是在翻译的准确性上。如今,系统已上线并应用在多个业务场景中。如演示视频:

维吾尔语-汉语同声传译系统 (确保清晰度,建议全屏播放)

同时,信息安全部希望通过在这个领域的多年积累和打磨,旨在打通藏语,蒙语,朝鲜语等小语种到汉语的巴别塔。目前,已经作为牵头单位,联合公司内部数团队承接了工信部和多名中国工程院院士发起的一带一路人工智能战略倡议书。

团队第一次在英汉这样的常规场景露面能够取得这样的成绩,让我觉得既在意料之外,又在意料之中。征战团队表示,WMT比赛是世界级比赛,能和世界级对手同台,更重要的是经验和历练。

同时,也借此感谢部门领导davidyu(于海涛)、damonju(鞠奇)对这个比赛和整个项目的支持,感谢信安成都的小伙伴多年来在分词和NER技术上的帮助,最后也感谢AI平台部的yuekuiyang(杨月奎) 给予的技术指点。

原文发布于微信公众号 - 腾讯TEG科技云端(TEGYunduan)

原文发表时间:2018-05-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏腾讯高校合作

【CCF-CV特别活动】“CCF-腾讯犀牛鸟沙龙”走进腾讯优图

中国计算机学会计算机视觉专委会走进企业系列交流会 CCF-CV@Industry 腾讯优图·上海 主题:图像识别和多媒体分析技术前沿 时间:2016年5月13日...

5695
来自专栏AI科技评论

视频 | 机器人:我不是药神,我只医生的小帮手 | ICRA 2018

这里是,雷锋字幕组编译的 ICRA 2018 系列,带你了解机器人与自动化领域的最新研究成果。

1403
来自专栏大数据文摘

股价技术分析有了系统的数学理论基础

1549
来自专栏AI研习社

机器人:我不是药神,我只医生的小帮手 | ICRA 2018

小编最近看了场悲伤的电影,由程勇“印度仿制药”一案改编而成的电影,《我不是药神》。

1012
来自专栏PPV课数据科学社区

当今世界最NB的25位大数据科学家

引言 在大数据技术飞速发展的今天,谁才是我们大数据科研与工业界中最有威望的科学家呢?下面我们来进行梳理,共罗列了25位当今世界,无论是在学术与工业界都产生巨大影...

4845
来自专栏顶级程序员

当今世界最NB的25位大数据科学家

引言   在大数据技术飞速发展的今天,谁才是我们大数据科研与工业界中最有威望的科学家呢?下面我们来进行梳理,共罗列了25位当今世界,无论是在学术与工业界都产...

3028
来自专栏AI2ML人工智能to机器学习

易图秒懂の机器学习诞生 奠基篇

在“易图秒懂の人工智能诞生”、 “易图秒懂の符号主义诞生” 和 “易图秒懂の连接主义诞生”,我们看到人工智能的发展经历了符号主义和连接主义的壮大的洗礼。 其实它...

1001
来自专栏AI科技评论

EMNLP 2018 今日开幕!3 大亮点逐个看

AI 科技评论按:作为自然语言处理领域的顶级会议之一,EMNLP 2018 今日在比利时首都布鲁塞尔正式召开。10 月 31 日至 11 月 1 日为 Tuto...

792
来自专栏华章科技

【膜拜大神】当今世界最牛的25位顶尖大数据科学家

在大数据技术飞速发展的今天,谁才是我们大数据科研与工业界中最有威望的科学家呢?下面我们来进行梳理,共罗列了25位当今世界,无论是在学术与工业界都产生巨大影响的数...

1272
来自专栏PPV课数据科学社区

不加班,上班可以打游戏,年薪20万起,什么职位这么牛逼...

“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”——全球知名咨...

3286

扫码关注云+社区

领取腾讯云代金券