专访|网易有道段亦涛:丁磊亲自过问的神经网络翻译技术到底是什么?

AI科技评论按:很多读者在思考,“我和AI科技评论的距离在哪里?”答案就是:一封求职信。

近日,网易有道正式对外公布:由网易公司自主研发的神经网络翻译( Neural Machine Translation)技术正式上线,网易内部人士称,该项目受到了丁磊的亲自过问。

有道2008年诞生,诞生伊始的核心业务是搜索。在2013年剥离搜索业务之后,有道仅翻译业务(包括有道词典、有道翻译官等)就获得了7亿用户,体量庞大。

就此,AI科技评论独家专访了有道首席科学家段亦涛,聊了聊有道在机器翻译领域的研究和探索。

有道是国内第一批提供机器翻译服务的互联网公司,从2008年正式推出到现在,已近十年。十年时间里,有道一直聚焦于中文与其他外语之间的翻译,通过不断提升机器翻译的质量,吸引了大量用户,积累了海量的语料和数据。

即便如此,机器翻译的质量还是差强人意。随着人工智能技术的发展,深度学习逐渐应用在机器翻译领域,神经网络翻译模型开始得以运用,而有道也借此将其机器翻译能力提到了一个新的高度。用段亦涛的话来说就是:

神经网络翻译是人工智能及深度学习在机器翻译领域的具体应用,是目前最前沿的机器翻译技术,它带来的翻译质量提升是过去十年的总和。

通过机器来实现翻译一直是人类一个梦想,在计算机诞生之前,人类就设想过用自动化的方法将一种语言的文字翻译成另外一种语言。计算机诞生之后,人类开始希望做出一个能够实现自动翻译的程序。早期的尝试都不太成功,统计翻译模型的出现,给机器翻译领域带来了第一次飞跃。

统计翻译模型不依赖于人为设定的规则,而是从大量的平行语料里总结语言规律,从而得到翻译的结果。但它的问题也很多,最大的问题在于统计翻译模型是一个由很多组件组成的模型,比如分词、短语、对齐,调序等组件,这些组件独立存在,各司其职,每个组件完成自己的意向任务,最后“拼凑”起来,产生一个“还看得过去”的翻译结果,远远谈不上“满意”。但两年前,无论是我们熟知的谷歌翻译、百度翻译,还是其他翻译类产品,用的基本都是统计翻译模型。

当神经网络模型用于机器翻译之后,这一切有了改观。神经网络翻译能够对整个句子进行编码,更充分地利用上下文信息,判定多义词的词义,生成更自然的译文。最直观的一点,是神经网络翻译的译文句子结构完整,语序更符合人类语言使用习惯,翻译结果通顺。

神经网络翻译原理

如此评价,除了实际使用中用户的感知,还有一个更为理性的标准,由IBM在2002年建立,被称为BLEU(Bilingual Evaluation understudy)值。据维基百科介绍,BLEU是一种评价机器翻译文本质量的算法,该算法的核心价值观认为:机器翻译越接近专业翻译,质量越高。

BLEU的具体方法是将候选译文和参考答案做对比,把单个翻译片段(一般是句子)与一组良好的质量参考译文进行比较,判断词语、语序的重合部分,重合越多,得分越高,之后通过整个语料库平均得出翻译的总体质量的估计。

在机器翻译领域,神经网络翻译模型逐渐取代了统计翻译模型,其中一个重要原因就是,前者的BLEU值大幅度提升。

除了纵向对比,横向和其他同行比较的话,BLEU值也是一个重要参考标准。按照有道官方给出的数据显示,在英语学习场景中,有道神经网络翻译的英译中和中译英的BLEU值领先了同行7个百分点;而在新闻文章翻译场景中,其英译中BLEU值超同行6个百分点,而中译英超过了8个百分点。

神经网络翻译中译英对比

之所以能比同行高出6-8个百分点,段亦涛认为优势在于两个方面:

  • 以中文为核心,更加专注。针对中文特有的语言现象做了非常多的优化,包括中文的分词等;
  • 词典近十年积累了庞大数据,依托有道词典积累的语料和用户数据,能够在英语学习这种翻译场景下做到最好。

“效果不错”,但段亦涛也承认,“在缺乏完备的理论基础的情况下,实践中需要非常依赖经验和摸索。效果是最硬的指标,理论再完美,不起效果对我们来说就没有意义”。

在行业里曾经有人做过一个类比,“深度学习(包括神经网络模型)就像炼丹,把各种素材放在一起,然后掌握火候,在不断试炼中才能达到最好效果”,或许这也反映了,在行业缺乏完备的理论基础的情况下,现实的困难是——大家都只能摸索,这就存在非常大的不确定性。但对目前有道做出来的效果,段亦涛还是满意的。

当然,这离不开一个强大的技术团队。段亦涛表示,有道团队将会持续聚焦在机器翻译领域,未来将着力于三个方面:

  • 调整模型和算法
  • 获取更多数据
  • 不同领域适配

AI科技评论了解到,有道神经网络翻译技术已经在有道词典、有道翻译官、有道翻译网页版、有道e读等产品中应用,覆盖用户超过7亿。

小结

在采访的最后,还聊到了段亦涛加入网易有道的经历。段亦涛本硕专业读的是北航的飞机设计,专注研究"隐身技术",和计算机基本没关系。但去加州大学伯克利分校读博时,因为兴趣,转到了计算机科学,读的方向是分布式计算领域的隐私和加密。对于这种转变,段亦涛觉得难度没有想象那么大,因为在工程上都是相通的,其次他有数学的优势。

在伯克利读博期间,段亦涛结识了的周枫,也就是现在网易有道CEO。

当时,周枫受丁磊之邀,正在考虑加入网易开发有道项目。于是,周枫便邀请段亦涛一起加入了网易。从2008年到2017年,接近十年,段亦涛热情不减,他说"我还是挺喜欢的"。

很多业内人士,并不知道网易有道也在做 Al方面的研究。段方涛表示,希望有更多 Al人才加入进来。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-05-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏FreeBuf

机器学习对抗案例 | 愚弄Google图像识别算法

2018年CES在美国拉斯维加斯召开,站在风口浪尖上的科技企业纷纷出动,在会场各显神通地展示自己的科技产品和各种智能算法。近年来,人工智能的浪潮不断拍打着 IT...

2199
来自专栏新智元

【深度解析】Google第二代深度学习引擎TensorFlow开源(CMU邢波独家点评、白皮书全文、视频翻译)

TensorFlow 是 Google 第二代深度学习系统,今天宣布完全开源。TensorFlow 是一种编写机器学习算法的界面,也可以编译执行机器学习算法的代...

3896
来自专栏人工智能头条

教授机器视物和理解:Facebook人工智能研究进展及规划

1323
来自专栏量子位

进阶深度学习?这里有9个给程序员的建议

这名开发者名叫Alexey Gaziev,是一家社交媒体管理创业公司的CTO,原来是一名Ruby开发者,后来自己学习深度学习。

1112
来自专栏PPV课数据科学社区

机器学习的必备条件不是数学而是...

编者按:2012年10月《哈佛商业周刊》上面发表了一篇专栏,文章称“数据科学家”是21世纪最最性感的工作。在美国,数据科学家的年收入已超过律师和医生,无怪乎有人...

3387
来自专栏CSDN技术头条

AI人才薪酬看涨,背后有什么鸡贼?

图上显示,当前一些知名互联网公司关于 IT 研发岗位的招聘行情。应届毕业生都比我这个有几年写 bug 经验的码农赚得多了!!

743
来自专栏AI研习社

读了这些书,才能正确入门深度学习

编者按:本文作者为 Jeffries Consulting 创始人 Daniel Jeffries,他以自己的阅读体验,对当前含金量极高的几本深度学习书籍进行点...

2746
来自专栏AI科技评论

学界 | DeepMind眼中的神经科学研究:人工智能进步的另一个重要支点

AI 科技评论按:继神经科学家成为机器学习领域会议的邀请演讲的常客以后,DeepMind AI 博客今天也发出了一篇文章讲述他们对人工智能研究和神经科学研究协作...

33611
来自专栏IT派

机器学习:3个知乎大神回答、5个新人常见问题和3个学习规划

最近一位转型AI的朋友抱怨,“走过的最远的路,就是机器学习过程中的弯路”,然后开始各种blablabla,从论文的坑,到模型的坑,再到培训的坑...一路吐槽。

1160
来自专栏新智元

【精度平均最高80%】机器学习+全基因组测序,准确预测人体特征

【新智元导读】人类长寿公司的研究人员最近在PNAS发表了一篇论文,利用全基因组测序数据,使用机器学习方法,预测个体的性状。结果表明,研究人员能够比较准确地预测出...

2984

扫码关注云+社区