百度自然语言负责人吴华:基于神经网络的机器翻译,我们比谷歌早一年

【新智元导读】12月21日,百度举行机器翻译技术开放日。本次开放日主要向外界传递的一个主题是:百度早于谷歌和微软,在一年前已经推出最近很火的基于神经网络的机器翻译(NMT)系统。

新智元讯 2016年12月21日,百度举行机器翻译技术开放日。 百度技术委员会联席主席、自然语言技术负责人吴华博士作技术报告,她说,百度早在1年多以前就率先发布了世界上首个互联网基于神经网络的机器翻译(NMT)系统,引领机器翻译进入神经网络翻译时代。

神经网络翻译技术从2014年9月提出,百度2015年5月上线首个互联网NMT系统。今年9月,谷歌、微软等公司也相继发布NMT系统。

NMT技术缘何受到追捧?据吴华介绍,它克服了传统方法将句子分割为不同片段进行翻译的缺点,而是充分利用上下文信息,对句子进行整体的编码和解码,从而产生更为流畅的译文。

据介绍,当时百度翻译技术人员系统化地提出了一整套解决方案。譬如,通过引入SMT中的特征解决NMT系统集外词(OOV)无法翻译、译文不完整(漏词)的问题,借助算法改进将解码速度提升数十倍;提出首个基于深度学习的多语言翻译框架,解决数据稀疏问题;同时将模型压缩70倍便于移动用户在本地运行等。

目前,百度翻译支持全球28种语言互译、756个翻译方向,每日响应过亿次的翻译请求。此外,百度翻译还开放了API接口。目前已有超过2万个第三方应用接入。华为、OPPO、中兴、三星等手机厂商,金山词霸、灵格斯词霸、敦煌网等众多产均接入了百度翻译API。世界知识产权组织(WIPO)也将百度翻译API集成到官网,供用户将专利信息翻译成不同语种查询。

不过,吴华对新智元介绍说,百度翻译现在的准确率只能说是有70分左右,离90分的准确率还有很远的距离。另外,现在整个百度翻译的商业模式是To C 的,To B业务目前还没有展开,但是以后会考虑。

解决数据稀疏的问题

NMT 模型近几年来的发展中一个核心问题,就是解决数据稀疏。

在接受新智元的采访时,吴华说:

其实不管是神经网络翻译技术,还是以前统计机器翻译技术都是基于双语语料的,比如中英的翻译是一句中文和一句完全翻译好的英文对照的,之后才能提供翻译服务。但是,并不是所有的语言之间的语料都是很充分的,英文和中文,英文和法语之间可能相对比较充分一些,但比如中文和日本、韩语就比较少。

为了解决这个问题,百度以前基于统计翻译的时候,提出了疏轴的语言,这个方法做的比其他公司好。在NMT技术下,是借鉴和其他语种的语料优势来翻译的,当时提出这个方法的时候发表在国际会议上得到了很高的评价。

这个技术本质上还是解决数据稀疏的问题,因为NMT这种机制可以多个语言一起学习。谷歌现在也是在这个技术上,用多个语言一起训练然后共享参数,共享参数的目标是为了借鉴其他语种语料的优势,来解决语料稀疏的翻译质量问题。今年11月份谷歌提出了Zero-shot的方法,实际上也是解决数据稀疏的问题。

NMT 的不足

开放日现场,记者问到,NMT和SMT(基于统计的机器翻译)的区别。吴华说,SMT不管是基于短语还是句法的,都还是在局部解码,没有看全句最优。但NMT的好处是先看整个句子的意思,然后再翻译。这个过程就会表现出来好像理解了一句话的意思,所以在选择翻译词的时候,更加符合这个句子的语意一些。这也就是为什么NMT在翻译长句的时候好一些。但NMT没有真正解决语义问题,虽然它很长一段时间都是主导。

她说:“NMT的劣势实际也很明显,因为NMT还只不过是高级一点的模式识别的技术,所以没有真正解决语义的问题。”

与谷歌翻译的对比

谈到谷歌翻译与百度翻译的对比。吴华认为,谷歌翻译在基于统计的机器翻译上做得很好,处于领先地位,但是在基于神经网络的机器翻译上,百度走在了前面。并且,谷歌翻译是以英语为中心的,百度翻译的中心是中文。另外,在语音的翻译上,百度要领先一些。

她说:“谷歌翻译是处在一个领先地位的,但我们的优势在于,在基于神经网络的技术上,我们是有点领先的。谷歌翻译发新闻通稿,里面也引用了我们很多之前发表的一些文章,这个大家如果关注的话可以查到。在神经网络这条线上我们是走在前面的,虽然他们在统计翻译里还是走在前面的。”

她还补充道:“在线上的翻译系统里,我们在口语翻译上实际上是明显超越谷歌的,这一点大家可以随便去试试看看。”

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2016-12-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

【学习】阿里面试经历及总结(数据研发、Java研发方向)

我投的岗位“软件研发工程师”。到了面试现场,选择了Java语言(有对应的面试官)。不过,后面进行了交叉面试,被推到了“数据研发”岗位。 一面: 首先,自我介绍。...

50670
来自专栏数据的力量

图表展现需要注意的7件事

17470
来自专栏CreateAMind

NIPS2016 Variational Inference全面介绍ppt 及视频

【变分推理:基础&新方法】《(NIPS 2016 Tutorial)Variational Inference: Foundations and Modern ...

12210
来自专栏Petrichor的专栏

常见帧率 与 帧率运用

帧率(Frame rate)是用于测量显示帧数的量度。所谓的测量单位为每秒显示帧数(Frames per Second,简称:FPS)或“赫兹”(Hz),一般来...

30130
来自专栏UAI人工智能

【UAI第一期AI成长社】第0封信:与AI做朋友的第一个注意事项

14630
来自专栏量子位

脑子瓦特?记忆力受损?试试AI调控的闭环电击颞叶疗法

Root 编译整理 量子位 出品 | 公众号 QbitAI 发际线后退就算了。 发现自己连记忆力也开始下降? 你可能需要电电自己的脑子了。 2月6号,宾大研究团...

28270
来自专栏悦思悦读

关于人工智能、编程以及机器学习

比如:美国橡树岭国家实验室在去年底发布的论文《人机混编的代码意味着什么?人类 2040 年还需要亲自编写代码吗? 》中表示:到了2040年,大多数的程序代码将由...

10520
来自专栏新智元

【AI再创纪录】机器翻译提前7年达到人类专业翻译水平!

【新智元导读】微软昨天宣布其研发的机器翻译系统首次在通用新闻的汉译英上达到了人类专业水平,实现了自然语言处理的又一里程碑突破。 由微软亚洲研究院与雷德蒙研究院的...

34870
来自专栏LET

人工智能自学能力的提高正挑战人类的能力

23340
来自专栏媒矿工厂

媒体生产中的人工智能

前言 人工智能和机器学习技术的进步,使得制造商和广播公司能够开发和实现更加智能的工具和应用,以加速整个产品的生命周期。对广播公司而言,人工智能的吸引力在于其在利...

54870

扫码关注云+社区

领取腾讯云代金券