前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >百度自然语言负责人吴华:基于神经网络的机器翻译,我们比谷歌早一年

百度自然语言负责人吴华:基于神经网络的机器翻译,我们比谷歌早一年

作者头像
新智元
发布2018-03-26 17:20:17
1.2K0
发布2018-03-26 17:20:17
举报
文章被收录于专栏:新智元新智元

【新智元导读】12月21日,百度举行机器翻译技术开放日。本次开放日主要向外界传递的一个主题是:百度早于谷歌和微软,在一年前已经推出最近很火的基于神经网络的机器翻译(NMT)系统。

新智元讯 2016年12月21日,百度举行机器翻译技术开放日。 百度技术委员会联席主席、自然语言技术负责人吴华博士作技术报告,她说,百度早在1年多以前就率先发布了世界上首个互联网基于神经网络的机器翻译(NMT)系统,引领机器翻译进入神经网络翻译时代。

神经网络翻译技术从2014年9月提出,百度2015年5月上线首个互联网NMT系统。今年9月,谷歌、微软等公司也相继发布NMT系统。

NMT技术缘何受到追捧?据吴华介绍,它克服了传统方法将句子分割为不同片段进行翻译的缺点,而是充分利用上下文信息,对句子进行整体的编码和解码,从而产生更为流畅的译文。

据介绍,当时百度翻译技术人员系统化地提出了一整套解决方案。譬如,通过引入SMT中的特征解决NMT系统集外词(OOV)无法翻译、译文不完整(漏词)的问题,借助算法改进将解码速度提升数十倍;提出首个基于深度学习的多语言翻译框架,解决数据稀疏问题;同时将模型压缩70倍便于移动用户在本地运行等。

目前,百度翻译支持全球28种语言互译、756个翻译方向,每日响应过亿次的翻译请求。此外,百度翻译还开放了API接口。目前已有超过2万个第三方应用接入。华为、OPPO、中兴、三星等手机厂商,金山词霸、灵格斯词霸、敦煌网等众多产均接入了百度翻译API。世界知识产权组织(WIPO)也将百度翻译API集成到官网,供用户将专利信息翻译成不同语种查询。

不过,吴华对新智元介绍说,百度翻译现在的准确率只能说是有70分左右,离90分的准确率还有很远的距离。另外,现在整个百度翻译的商业模式是To C 的,To B业务目前还没有展开,但是以后会考虑。

解决数据稀疏的问题

NMT 模型近几年来的发展中一个核心问题,就是解决数据稀疏。

在接受新智元的采访时,吴华说:

其实不管是神经网络翻译技术,还是以前统计机器翻译技术都是基于双语语料的,比如中英的翻译是一句中文和一句完全翻译好的英文对照的,之后才能提供翻译服务。但是,并不是所有的语言之间的语料都是很充分的,英文和中文,英文和法语之间可能相对比较充分一些,但比如中文和日本、韩语就比较少。

为了解决这个问题,百度以前基于统计翻译的时候,提出了疏轴的语言,这个方法做的比其他公司好。在NMT技术下,是借鉴和其他语种的语料优势来翻译的,当时提出这个方法的时候发表在国际会议上得到了很高的评价。

这个技术本质上还是解决数据稀疏的问题,因为NMT这种机制可以多个语言一起学习。谷歌现在也是在这个技术上,用多个语言一起训练然后共享参数,共享参数的目标是为了借鉴其他语种语料的优势,来解决语料稀疏的翻译质量问题。今年11月份谷歌提出了Zero-shot的方法,实际上也是解决数据稀疏的问题。

NMT 的不足

开放日现场,记者问到,NMT和SMT(基于统计的机器翻译)的区别。吴华说,SMT不管是基于短语还是句法的,都还是在局部解码,没有看全句最优。但NMT的好处是先看整个句子的意思,然后再翻译。这个过程就会表现出来好像理解了一句话的意思,所以在选择翻译词的时候,更加符合这个句子的语意一些。这也就是为什么NMT在翻译长句的时候好一些。但NMT没有真正解决语义问题,虽然它很长一段时间都是主导。

她说:“NMT的劣势实际也很明显,因为NMT还只不过是高级一点的模式识别的技术,所以没有真正解决语义的问题。”

与谷歌翻译的对比

谈到谷歌翻译与百度翻译的对比。吴华认为,谷歌翻译在基于统计的机器翻译上做得很好,处于领先地位,但是在基于神经网络的机器翻译上,百度走在了前面。并且,谷歌翻译是以英语为中心的,百度翻译的中心是中文。另外,在语音的翻译上,百度要领先一些。

她说:“谷歌翻译是处在一个领先地位的,但我们的优势在于,在基于神经网络的技术上,我们是有点领先的。谷歌翻译发新闻通稿,里面也引用了我们很多之前发表的一些文章,这个大家如果关注的话可以查到。在神经网络这条线上我们是走在前面的,虽然他们在统计翻译里还是走在前面的。”

她还补充道:“在线上的翻译系统里,我们在口语翻译上实际上是明显超越谷歌的,这一点大家可以随便去试试看看。”

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-12-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档