独家科普:谷歌“汉译英”错误率降低60%是怎样算出来的?

两天前谷歌宣布发布新一代神经网路机器翻译系统(Google Neural Machine Translation),简称GNMT,因为使用当前最先进的训练技术,能够实现到迄今为止机器翻译质量的最大提升。

“人们对这个翻译系统的评价显示,与之前那个基于短语的翻译系统相比,在翻译多种语言时,神经学习翻译系统的错误率已经降低了60%左右,其中包括英法互译,英西互译以及英汉互译。附加实验的结果显示,翻译系统的质量将和笔译人员平均水准更加接近。”

但是好奇心爆棚的AI科技评论君,突然想知道这个错误率降低60%是怎么推理出来的,所以我们为大家进行了一轮神还原。

第一步。

从维基百科和新闻网站上,随机选取 500 个中文句子,作为被评估内容。

第二步。

找人工翻译,将500个句子翻译为英文。

第三步。

将旧的机器翻译结果、新的机器翻译结果(神经网络)、人工翻译的结果、,这三份“考卷”,拿给熟练使用中英双语的真人判卷员。

第四步。

熟练使用中英双语的真人判卷员,给每张考卷的每个句子,进行打分。分数为 0~6 的整数,0代表翻译结果“狗屁不通”,6代表翻译结果“精彩绝伦”。

第五步。

出成绩了,旧机器翻译每个句子平均得分 3.694,新机器翻译得到 4.263 分,人工翻译得分 4.636 分。别忘了满分是 6 分哦。

第六步。

分别计算,跟人工翻译的水平相比,“误差率”(错误率)是多少。

  • 旧机器翻译:(4.636-3.694) / 4.636 = 20%
  • 新机器翻译:(4.636-4.263) / 4.636 = 8%

第七步。

算“错误率”降低了多少。

(20%-8%)/ 20% = 12% / 20%= 60%

第八步。

算算“准确率”提升了多少。

(4.263-3.694)/3.694 = 15%

第九步。

为什么用户兴奋,媒体兴奋,专家没那么兴奋?翻译公司商鹊网CTO魏勇鹏告诉雷锋网:

这里面两个主要的“陷阱”:

1、从3.6提升到4.2,和从4.2提升到4.6,这两个所需要付出的努力程度,后者可能是前者的10倍以上都不止,但Google就简单的线性计算为缩小了60%的差距。 2、中英的人工翻译,得到的评分也就只是4.6,比英西的人要低得多,这点说明用来作为基准的“人”,未必是靠谱的,以它为基准来评估,也未必是靠谱的。

其实还有第三点,别忘了卷子是 Google 自己出的。

注意用于做评测的数据是:500 randomly sampled sentences from Wikipedia and news websites。这些都是互联网上语料最充足的内容类型。也就是机器最擅长的内容。

第十步。

行业认可的一种机器翻译成绩评估,是 WMT 的 BLEU Score 比赛。Google 这次发布的论文,也用了 BLEU Score 的分数。雷锋网没找到汉译英的部分,但是有英译法的数据,从 37 分提升到 41.16 分。

第十一步。

很多人类患上“围棋”恐慌症了。

Google 首次将神经网络技术,成功应用到翻译产品上,上线后使得翻译质量有了明显提升。但是媒体报道中的标题“错误率降低 60%”,甚至某种语言是 “85%”,很容易让普通人以为蒸汽机革命来了……事实上,微软、百度等大公司之前也在翻译产品中使用神经网络技术,但没有引起大的传播。

究其原因。一位不具名的评论者告诉雷锋网,之前很多人看到 Google 的电脑在围棋上战胜了人类,心理上受到了冲击,自然而然认为 Google 强大的人工智能技术,会颠覆很多行业。尤其是那些当初认为机器在围棋上战胜不了人类的人类,现在又对“人工智能”过于乐观了。

第十二步。

北京时间9月29日早上,论文作者之一,Google Brain 团队的陈智峰,通过远程视频接受了 3 家中国媒体的采访。他告诉雷锋网,这次 Google 比较特别的地方在于,训练过程利用了大量的分布式计算,所以才能把语言模型很快训练出来。“差不多一星期才能处理一个方向的语言模型。但是Google有大概一万个语言的模型需要训练,既需要我们有巨大的资源投入,也在不停地改进算法。 ”

对于机器翻译取代人工翻译的问题。陈智峰认为,规则的文本,比如医学论文,比如时事新闻,大家更注重信息的传达,在修辞方面或情感方面的传达可以弱化一些。“机器翻译就能够很快地帮助你获得信息,这是机器翻译目前对人类的主要帮助。”

他说,“目前来讲,我觉得人与人之间的自然的沟通,通过机器翻译还是有很大的工作需要做。做到真正能够让你感觉到跟你说话的是个人,而不是机器,还是有很多年需要努力的。”

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2016-09-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏华章科技

Intel研究院院长吴甘沙演讲全文:大数据分析师的卓越之道(32PPT珍藏版)

素材来自:经管之家(bbs.pinggu.org) 组织“中国数据分析师行业峰会”。

1063
来自专栏华章科技

Intel研究院院长吴甘沙:大数据分析师的卓越之道(珍藏版)

亲爱的各位同仁,各位同学,早上好。大数据时代数据分析师应该做什么改变?我今天的标题是大数据分析师的卓越之道。这个演讲信息量比较大,我讲的不一定对,即使对的我也不...

782
来自专栏腾讯高校合作

【犀牛鸟论道】社会传播学的若干课题与实践

社会传播学的若干课题与实践 贺鹏、易玲玲、高瀚、陈川 腾讯微信数据中心社会传播组 [摘要]俗话说“酒香不怕巷子深”,表面上说的是酒香引人,实际上是指好酒在街坊邻...

3385
来自专栏智能算法

机器视觉与计算机视觉的区别?

计算机视觉与机器视觉,首先是应用场景不一样,就像@Vinjn张静 回答的那样:你把摄像头对着人就是CV,对着车间就是MV。 计算机视觉和机器视觉应用场景不同,就...

50511
来自专栏数据科学与人工智能

【数据分析】Intel研究院院长吴甘沙:大数据分析师的卓越之道

吴甘沙 Intel中国研究院第一位“首席工程师” Intel中国研究院院长 ? 亲爱的各位同仁,各位同学,早上好。讲到大数据,就要问数据分析师应该做什么?所以我...

2745
来自专栏专知

搞机器学习,不认识他们怎么行?

【导读】本文是机器学习爱好者Aditya Ananthram撰写的关于机器学习领域中几个大牛的介绍文章,对于今天AI的火热程度而言他们功不可没,因为如果没有这些...

3746
来自专栏AI科技评论

干货 | 「我的第一次数据科学家实习经历」

AI 科技评论按:「数据科学家」可谓是近几年的一大热门职位,很多学习了数学、信息、计算机相关专业的同学都对它表示跃跃欲试。Admond Lee 学习了物理专业...

1122
来自专栏目标检测和深度学习

VALSE 视觉资源汇总(视频+PPT+文章解读,持续更新)

VALSE(Vision and Learning Seminar, VALSE)发起于2011年,是国内计算机视觉、图像处理、模式识别与机器学习等研究领域的青...

1655
来自专栏CSDN技术头条

入行 AI,如何选个脚踏实地的岗位?

AI原本是一个专业领域,没什么特别的。作为码农一枚,笔者的工作内容正好在这个领域。

1113
来自专栏新智元

【LeCun vs Marcus巅峰论战】AI学习是否需要类似人类的认知结构?

【新智元导读】人工智能和心理学领域的两位顶尖研究者,纽约大学 Yann LeCun 和 Gary Marcus 就 AI 是否需要类似人类和动物的内置的认知机制...

3456

扫码关注云+社区