张霄军:机器翻译十问十答

1、机器翻译就是计算机自动翻译吗?

自行车就是自己会走路的车吗?从实现形式上来看,“全自动机器翻译”确实是计算机在没有人工干预的情况下自动将源语言输入转换成为目标语言输出,但实际上这种“全自动”机器翻译系统完全依赖于开发者在语言建模、算法优化和语料训练等方面的人工干预。目前机器翻译系统开发一般都是在一个“通用”的系统平台(如Moses系统)上根据不同的翻译领域进行相关的语料训练和参数调整,以期产生最佳译文。而实用的机器翻译系统则完全不是“全自动”的,语言工程师进行源语言输入时要对源语言进行预处理,在目标语言输出之后对其进行后编辑,这样才能满足用户的译文质量要求。

2、什么是机器翻译的“最佳译文”?

上面提到的“以期产生最佳译文”是针对机器翻译系统开发而言的:人工评测机器翻译的译文耗时费钱,机器翻译译文评测缺乏一种“客观的”的评判标准。但没有规则游戏就没得玩了,所以一帮人揣摩出一种自动的译文评价方法,大致就是看机器翻译译文里有多少个词能在参考译文里找到,找到的越多那译文质量就越好。很明显这种方法很容易自动实现但又很不“科学”,后续研究者们不断优化和改进这条游戏规则,但基本思路基本没有变,这就是著名的BLEU算法。那么刚才所说的“最佳译文”就是BLEU得分最高的译文。但实用的机器翻译的译文优劣绝不能用BLEU来评判(当然也不能用信达雅来评判),我认为实用的机器翻译系统都是服务于特定用户的,那么用户评价或者面向翻译任务的译文评价应该是较为客观和科学的评判标准。

3、实验室里开发的机器翻译系统和实用的机器翻译系统有何区别?

塑料假花和真花的区别。实验室里开发的系统专注于系统的优化,而实用的系统要考虑到翻译的真实场景。具体可参见颜水成的《学界与工业界的AI研究:有哪些重要不同?》。

4、基于规则的和基于统计的机器翻译哪个强?

实际上将机器翻译系统开发简单归类于基于规则和基于统计两类是很不科学的:既不符合机器翻译发展历程,又不能反映出机器翻译开发的现状。机器翻译的雏形本来是噪声信道模型(基于统计的),但早期的开发者们天真地以为依靠双语对应的语法规则就可以实现(基于规则的),后来发现此路不通以后就提取一些有用的双语模版(基于实例的)用于统计,直到统计模型在模式识别领域大放异彩时机器翻译界才引入了统计机器翻译。历史又一次重现,深度学习和神经网络在语音和图像处理领域取得很大进展时,神经网络机器翻译系统也应运而生。机器翻译每一次进步都是在前面研究的基础上的深化和升华,不存在哪种系统好哪种系统差。

5、机器翻译的下一次深化或者升华会是什么样的?

我不是未来学家,也不会未卜先知,但我认为将现有的机器翻译技术与认知科学、脑科学相结合会取得较大进步:计算机能很好地处理人类教给它的知识是因为人类教给它的知识是已知的知识,但人类语言的运行机制是什么样的我们并不十分知晓,所以我们先得弄清楚自己不知道的知识才能教给计算机这些知识让它去处理。下一步则就要计算机尝试去处理人类“未知的”知识:学习人类如何将“未知”变成“已知”。

6、那是不是说机器将会具有人类的“智能”?

哦,这个似乎已经超出了机器翻译的范畴,但我还是很乐意用乔老爷的反问句来回答“机器会不会思考”之类的问题----Can submarine swim?

7、MT+PE的模式会不会让译员变懒?

懒译员在任何工作模式下都会懒,MT+PE只会让勤快的译员更加勤快。

8、机器翻译会让译员失业吗?

行业危机无时不在,技术改变了生活为什么不能改变翻译呢?译员不用过分担心自己将来会不会失业----如果你不幸失业了,那原因只能是你翻译得不够好而绝非你不懂技术----机器翻译会让不称职的译员失业。但译员的培养和培训机构要有行业担当,当然,译员的自主学习也非常重要。

9、译员还要不要学习CAT?

实用的机器翻译系统要走出实验室走向应用还有很长的一段路要走,职业译员在不能直接应用实用的MT技术之前,学习使用CAT是基本的职业技能之一;CAT和PE侧重点不同,前者注重语料复用和术语的一致性,而后者注重译文的再加工,不矛盾;越来越多的CAT工具开始集成MT插件和提供PE界面,将来CAT和MT可以进行更好的融合。

10、文科生能学机器翻译吗?

我就是文科生。

本文来自企鹅号 - 翻译学研究媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏SDNLAB

SDN利弊互存 应理性看待

编者按:现如今SDN在业界取得广泛的好评,很多人都坚信SDN技术将提升企业网络;但鲜有人去考虑SDN落地所面临的各种挑战,如果说迄今为止SDN只是一个开始,那么...

26750
来自专栏SDNLAB

三月SDN市场上演“奔跑吧,兄弟”

家还在争论SDN的概念与意义,思科也曾用它相对比较封闭的网络硬件与软件结合硬撑着强调自己正主导着“SDN”的进程。当然,一切SDN “伪装”都在开放与开源的大背...

26350
来自专栏SDNLAB

SDN落地应是一场非暴力性革命

颠覆并不意味着暴力。从客观上来看,尽管SDN采用了与传统网络截然不同的控制架构,但其从概念热炒到商用落地的过程,也应是一场非暴力性革命。因为对于今天拥有了如此大...

34070
来自专栏SDNLAB

那些年,SDN走过来时的路

业界第一次提及SDN(软件定义网络)大约是在2009年,并且直到2011年ONF的推动下,才开始在业界崭露头角。然而就在过去的2-3年时间里,SDN从默默无闻,...

32770
来自专栏SDNLAB

中国电信专家解读SDN/NFV:网络开源开放将带来更多选择

在日前某公开场合,中国电信北京研究院主任工程师、中国电信云计算及SDx联合技术开放实验室执行主任王峰表示,伴随着CT技术的IT化,SDN/NFV已经成为了当前的...

34280
来自专栏WOLFRAM

《Wolfram 语言入门》

28750
来自专栏SDNLAB

回眸ONS2015,不容错过的精彩看点

刚刚闭幕的2015年开放网络峰会(ONS),注定有很多夺人眼球的事件发生。的确,作为SDN/NFV领域每年一度的盛会,它代表着该领域内的最新成果,也引导着整个行...

33970
来自专栏SDNLAB

2015年数据中心和企业领域的十大SDN市场领导者

领导者瓜分125亿美元的市场 据市场研究公司IDC的最近报告显示,诸多厂商在快速发展的软件定义网络(SDN)领域争夺市场份额。 Cliff Grossner是总...

33060
来自专栏社区的朋友们

传统零售企业的逆袭: Target 与 DevOps 的美妙邂逅

本文总结自Heather Mickman在DOES14, DOES15, DOES16连续三年做的DevOps转型主题演讲。

15800
来自专栏SDNLAB

从SDN-Washing到SDN-Hiding

本文翻译自AvidThink的创始人兼负责人Roy Chua,AvidThink是一家专注于技术基础设施的研究和分析公司。

10350

扫码关注云+社区

领取腾讯云代金券