腾讯征战CWMT2018获英汉翻译和总成绩第一

引言

北京时间6月26日,在刚刚结束的全国机器翻译大赛中(CWMT 2018)中,TEG以“腾讯基础研发部”名义参加比赛(由TEG springhuang 负责, bojiehu、ambyera 组成,jinghaoyan、alanpfhu、zhiqianglv 参与),经过几日通宵的鏖战,从25个参赛单位86个系统中脱颖而出,最终获得英汉翻译第一名,汉英,蒙(蒙古语)汉翻译亚军,维汉翻译第四名,藏汉翻译第七名的好成绩,并在综合总成绩上独占鳌头。

继团队在5月份获得世界机器翻译大赛获得亚军(参见文章《腾讯基础研发征战世界机器翻译大赛获不俗战绩》)后,此次全国机器翻译大赛更是将战火延伸到民汉领域。利用部门长期以来在民汉自然语言处理上的积累,一举夺得多项冠军和亚军,以下是所获成绩总表;

项目

结果

参与人

英汉

冠军

bojiehu, ambyera, springhuang

汉英

亚军

bojiehu, ambyera, springhuang

蒙汉

亚军

ambyera

维汉

第四

bojiehu, springhuang, alanpfhu, zhiqianglv

藏汉

第七

bojiehu, springhuang, jinghaoyan

总成绩

冠军

bojiehu, ambyera, springhuang, jinghaoyan, alanpfhu, zhiqianglv

全国机器翻译研讨会(CWMT)暨机器翻译评测大赛,和WMT(世界机器翻译大赛)不同,后者关注的是英语和其他国际语言的交流,而CWMT更关注核心汉语和民族语言,小语种的技术进步。是国内机器翻译领域规模最大、最具权威的评测活动,由中国中文信息学会主办,参评单位包括国内外从事机器翻译研究的高校科研院所和企业单位,迄今为止已经举办了八届。此次比赛共吸引了中科院自动化所,中科院计算所,中科院信息所,中科院软件所,北航,北交大,厦门大学,小牛翻译,澳门大学,中央民族大学,哈工大,上海交大等25家单位,甚至NICT这样的外国单位也前来参赛。比赛队伍数量和技术水平此次均创历史新高(上一届18个队伍)。CWMT 2018代表目前国内民汉翻译领域的最高水平,基本上小语种研究发表论文,也都会参照CWMT的测试集;以下是此次CWMT的所有比赛项目;

任务名称

评测项目名称

项目代号

语种

翻译任务

汉英新闻

CE

汉语-英语

英汉新闻

EC

英语-汉语

蒙汉日常用语

MC

蒙古语-汉语

藏汉政府文献

TC

藏语-汉语

维汉新闻

UC

维吾尔语-汉语

多语言翻译任务

英、日、汉多语言翻译任务

JE

日语-英语

翻译质量评估任务

汉英翻译质量评估

CE-QE

汉语-英语

英汉翻译质量评估

EC-QE

英语-汉语

机器翻译尤其是民族语言机器翻译,一直是部门的业务刚需。我国是一个56个民族,200多种语言的国家,不同语言之间的交流经常会存在障碍,以维吾尔族为例,目前能够运用汉语顺利交流的人群只占有约36%,能够消除语言交流的障碍,打造民汉交流的巴别塔,一直是团队的目标。同时,民族语言如果出现f非法信息,也是非常不容易捕获的。为此,团队在民族语言同声传译,OCR拍照识图上的研发和突破,对于信息安全业务和边疆地区的社交业务,都有非常深远的意义和影响。归根结底,团队就是要打造能够识别民族语言的“耳朵”,“眼睛”和“大脑”,利用民族语音识别技术,听懂民族语言;利用民族语言OCR技术,看懂民族语言;而如何把听懂和看懂转化为理解,就需要作为核心“大脑”的民族语言机器翻译技术,把这些内容转化为大部分人可以看懂的汉语。以下是一段维汉同声传译的演示视频:(确保清晰度,建议全屏播放)

维吾尔语-汉语同声传译系统 

以及和深圳前端,工程团队一起,自研的维吾尔语-汉语同声传译APP。

本次大赛中,腾讯基础研发部代表队(TencentFmRD)充分发挥了其团队技术在大规模,长期民族语言应用上的经验和优势,配合成都团队在数据标注上的长期积累,采用自研的分词和NER(命名实体识别)技术,对民族语言场景中的词汇和命名实体进行准确识别。同时,模型采用基于自注意力机制的Transformer框架,并采用了多模型融合技术(ensemble)、利用单语数据增强训练集(back translation)、多特征重排序(reranking)、迁移学习(transfer learning)、联合训练(joint learning)、微调系统(fine-tuning)。其中,重排序设计的特征大致有,覆盖度特征,从左至右翻译模型(l2r),从右至左翻译模型(r2l),目标端到源端反向翻译模型(T2S),正向对齐概率,反向对齐概率,源端和翻译候选的长度比和长度差等。最终通过最小错误率训练(MERT)来学习各个特征的权重。另外,我们尝试了用数据选择的方法对系统进行fine-tuning。除此之外,通过构造用户词典,并采用团队在语音识别中的后处理算法,有效解决NER翻译可读性差的问题。以下是本系统构造图:

腾讯基础研发代表队是第一次参加这样大规模的比赛,尤其在英汉,蒙汉和维汉翻译场景上,是目前部门业务的刚需。在维汉和蒙汉技术上,团队更是深耕于民族语言的技术积累。在此次次赛中,团队基于去年获得全国第一的维吾尔语分词系统(参见文章 《全国维吾尔语分词技术比赛斩获冠军系统窥密》)和业界领先的蒙语,藏语分词系统,以及维,蒙,藏语的命名实体识别,词性标注,字形变化处理算法,词根词缀建模算法。打造出符合自身业务特点的参赛技术系统。比赛中,团队汉族成员胡博杰,黄申,蒙古族成员阿敏巴雅尔鏖战数夜,从技术调研,训练模型,优化算法,后处理到提交评测结果短短一周时间。这次比赛中,团队成员提交的系统涵盖了英汉,汉英,维汉,蒙汉,藏汉五个比赛项目,创所有比赛队伍之最。如今,这些系统已上线并应用在部门多个业务场景中。

CWMT 2018研讨会和颁奖典礼将于2018年10月25日至26日在福建举行,届时腾讯团队会登台做技术汇报。

作者心声:团队第一次在多个翻译场景露面能够取得这样的成绩,让我觉得既在意料之外,又在意料之中。说明了部门长期以来在翻译和语音技术产学研积累,使得技术达到了业界影响力。

同时,也借此感谢 julietwang,francesliu和 yufeizheng在高校合作上的支持和运营管理部在长期基础数据上的支持。

原文发布于微信公众号 - 腾讯TEG科技云端(TEGYunduan)

原文发表时间:2018-07-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏吉浦迅科技

老师们欢欣鼓舞:Gradescope 将人工智能技术用在打分数这件事上

这个秋天高中和大学的老师们在准备开学之际,注意:帮学生打分数的工作将会轻松不少。 一名加州大学柏克莱分校的教授和三名前研究生正在对一项人工智能技术进行最后调整,...

5288
来自专栏VRPinea

置身于原谅色之中的我,感觉自己头上绿绿的

2767
来自专栏量子位

快看这个机器人,在使用双截棍!| 附正经paper

夏乙 编译整理 量子位 出品 | 公众号 QbitAI 机器人会武术,谁也挡不住。 但是,真的有一群科研人员让机器人学会了一样兵器:双节棍。 就像这样: 新泽西...

3196
来自专栏企鹅号快讯

李飞飞高徒新项目,一眼看穿你下届总统会选谁!

翻译 | AI科技科技大本营 参与 | 刘畅 编辑 | Donna 和很多人一样,我们会通过一个人的外表和穿着来判断其经济能力,也会通过字迹来判断其品性。但这篇...

2147
来自专栏飞总聊IT

人工“智能”与图灵机

人工“智能”与图灵机 ? 今天白天有两件事情,第一是我看到了一篇知乎神文,讨论比图灵机更强悍的计算模型。第二是朋友圈讨论群都在刷亚马逊机器学习年会和微软bui...

38313
来自专栏AI科技评论

业界 | 谷歌的神经翻译系统并不意味着机器翻译到头了

AI科技评论按:本文是清华大学教授、中国中文信息学会副理事长孙茂松在MIFS 2016上的演讲实录,AI科技评论编辑整理。此次在北京举办的MIFS 2016是由...

2876
来自专栏量子位

视频出炉 | LeCun、Marcus激辩AI是否需要类似人类的认知能力

夏乙 安妮 编译整理 量子位 出品 | 公众号 QbitAI ? 一辆AI驱动的无人车可能在模拟环境中撞树5万次才知道这是错误行为,对比之下,悬崖上攀爬的野山羊...

3295
来自专栏PPV课数据科学社区

数据到底如何搞定电影票房预测?

怎样利用微博数据从股市中掘金?气象台怎样预报天气并发布预警?Google如何通过搜索行为预报流感爆发?这些有趣的问题背后,其实都隐藏着大数据的影子。基于对搜索...

2543
来自专栏AI科技大本营的专栏

AI 每周必读:The Ones

1、One Paper Parsing Universal Dependencies without training 链接: https://arxiv...

3317
来自专栏人工智能快报

日本科研人员利用人工智能预测放射性物质的扩散情况

日本东京大学工业科学研究所的科研人员近期证明,利用机器学习技术可以精确预测放射性材料的扩散情况。

782

扫码关注云+社区

领取腾讯云代金券