首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

AI英雄谱之弗朗茨·约瑟夫·欧赫

“只要给我充分的并行语言数据,那么,对于任何的两种语言,我就可以在几小时之内构造出一个机器翻译系统。”

统计机器翻译成长的这二十年来,最具传奇色彩的人物当首推朗茨·约瑟夫·欧赫(Franz JosefOch)博士了,网上也散落着他统计机器翻译第一人的一些片段。查了一下,关于欧赫的介绍,写得最详细的应出自计算所黄瑾写的一篇文章:《机器翻译评测介绍》,里面有一部分内容完整的介绍了欧赫博士的传奇故事。所以这第一篇英雄谱就摘录她的文章内容了,希望能引起大家对统计机器翻译的兴趣:

在统计机器翻译领域,Peter F. Brown是开山之祖,他的贡献自不必说。Franz J. Och是其后的巨人。

欧赫的主要贡献是:

(1) 把判别模型引入机器翻译,从根本上取代noisy-channel模型而成为目前的标准模型框架。

(2) 简化了基于短语的模型。注意,他不是提出者,CMU的Yeyi Wang在97年就提出类似于IBM模型的短语模型,同样基于EM算法。由于复杂度过高,Och引入了相对频度,这是Och的一个大贡献,极大降低了参数估计的复杂度。

(3) 开发并发布GIZA++。Och在这方面的学术贡献很少,只是重新实现Brown的工作,但是实际价值极大。

从2002年起,在美国国防部高等研究计划局(DARPA)5资助的项目TIDES6的框架下,美国国家标准和技术研究所出面组织了NIST机器翻译评测。NIST评测每年举办一次,主要考察的语言对是汉语到英语以及阿拉伯语到英语,并且只对各参评系统的机器翻译结果的质量进行评测,对系统本身的其他方面不做评价。

在NIST评测中出了一个颇具传奇色彩的人物,他就是毕业于德国亚琛工业大学的博士生弗朗茨·约瑟夫·欧赫(Franz Joseph Och)博士。

在1999年约翰霍普金斯大学夏季研讨班(JHU Summer Workshop 1999)上,他开发出了著名的IBM模型训练工具Giza。

在2002年NIST评测中,取得第一名的亚琛工业大学的机器翻译系统就是由他开发的。欧赫 2002年从亚琛工业大学毕业后进入美国南加州大学信息科学研究所(ISI/USC)工作,同时作为Language Weaver公司的顾问,后来于2004年加盟了谷歌(Google)公司。

他所到的每一个地方都稳拿当年NIST机器翻译评测的第一名。尤其是2005年的NIST评测中,他所在的谷歌公司开发的汉英机器翻译系统取得了0.35的BLEU值,比第二名的南加州大学(即他原来所在的单位)的系统的性能提高了近5个百分点。

2005年在汉语到英语方向取得前四名的单位分别是谷歌公司、美国南加州大学信息科学研究所(ISI/USC)、马里兰大学(UMD)和德国亚琛工业大学(RWTH);2006年汉英翻译的这个排名变成美国南加州大学信息科学研究所(ISI/USC)、谷歌公司、美国Language Weaver公司(LW)和德国亚琛工业大学。其中2006年的这四个研究单位的技术都有一定的渊源关系,全部都是欧赫曾经或者正在工作的地方。

在2006年评测中,除了汉英机器翻译的受限语料项目,其他所有项目的第一名都是谷歌公司。

欧赫不仅仅是在评测中成绩绝对领先,而且在研究方面也是非常出色的。

他这些年来发表的很多论文,包括博士论文,都成了统计机器翻译研究领域的经典,被人广泛引用和验证。更难得的是,他对自己的研究工作持一种非常开放的态度,一点都不保守。目前统计机器翻译研究领域一些著名的开源软件,如IBM模型训练工具Giza++、最大熵模型训练工具YASMET都是他开发的。这一切显示了欧赫不愧为统计机器翻译研究的第一人。

欧赫是统计方法的忠实信徒。

伟大的希腊科学家阿基米德(Archimedes)说过:“只要给我一个支点,我就可以移动地球。”(“Give me a place to stand on, and I willmove the world.”)。欧赫模仿阿基米德的口吻说:“只要给我充分的并行语言数据,那么,对于任何的两种语言,我就可以在几小时之内构造出一个机器翻译系统。”(原话是“Give me enough parallel data, and youcan have translation system for any two languages in a matter of hours.”。)

在欧赫的研究中,数据规模总是第一位的。他也尝试过使用一些句法知识,但他的最后结论是,句法知识对统计机器翻译毫无用处,甚至有反作用。因此,欧赫总是试图用最简单的模型和最大量的数据取胜。

到谷歌公司以后,谷歌公司对海量数据的驾驭能力使得欧赫如鱼得水。他把谷歌公司在Internet上采集的所有英语文档都用来训练英语的语言模型,动用了谷歌公司数千个CPU组成的计算机集群进行计算。如此巨大的语言模型,使得他所代表的谷歌公司在NIST评测中取得了其他单位难以撼动的优势地位。

他这样做,也是利用了NIST评测规则中的一个不太合理的规定。在NIST评测中,有两类项目:受限语料项目和不受限语料项目。在受限语料项目中,参评者只能使用评测组织者提供的训练语料进行训练。而在不受限语料项目中,参评者可以使用任何语料进行训练。研究人员一般比较关注受限语料项目的评测,因为只有在语料受限的情况下,参评单位之间的结果才是可比的。

大家比的是算法的好坏,而不是数据的规模和质量。但NIST评测规则不太合理的地方在于,对于受限语料项目,NIST评测只限定了用于训练翻译模型的双语语料必须受限,但对于训练语言模型的单语语料却没有任何限制。这使得谷歌通过这种方式训练出来的语言模型也可以参加NIST的受限语料项目评测。

但他这种做法也遭到了越来越多研究人员的质疑,也许作为谷歌公司的企业行为,这样做是无可非议的,但作为研究人员来说,他这么做对其他研究人员来说,无疑是不公平的。

另外,欧赫到谷歌以后,虽然系统做得非常强大,但他现在已经很少发表论文,通常只是在大会上做一些特邀报告。这样做的原因可能是因为谷歌公司要保守商业秘密吧。但这无疑也是让人觉得非常遗憾的。好在统计机器翻译领域现在人才辈出,出现了很多新的重量级人物,大家并不会因此感到寂寞。

好了,今天AI英雄谱就讲到这里,如果大家觉得不错,欢迎大家把我们这篇文章转发到朋友圈分享。

大家想了解人工智能领域的哪些传奇人物呢,欢迎留言告诉我们。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180228B0KK5800?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券