张霄军:机器翻译十问十答

1、机器翻译就是计算机自动翻译吗?

自行车就是自己会走路的车吗?从实现形式上来看,“全自动机器翻译”确实是计算机在没有人工干预的情况下自动将源语言输入转换成为目标语言输出,但实际上这种“全自动”机器翻译系统完全依赖于开发者在语言建模、算法优化和语料训练等方面的人工干预。目前机器翻译系统开发一般都是在一个“通用”的系统平台(如Moses系统)上根据不同的翻译领域进行相关的语料训练和参数调整,以期产生最佳译文。而实用的机器翻译系统则完全不是“全自动”的,语言工程师进行源语言输入时要对源语言进行预处理,在目标语言输出之后对其进行后编辑,这样才能满足用户的译文质量要求。

2、什么是机器翻译的“最佳译文”?

上面提到的“以期产生最佳译文”是针对机器翻译系统开发而言的:人工评测机器翻译的译文耗时费钱,机器翻译译文评测缺乏一种“客观的”的评判标准。但没有规则游戏就没得玩了,所以一帮人揣摩出一种自动的译文评价方法,大致就是看机器翻译译文里有多少个词能在参考译文里找到,找到的越多那译文质量就越好。很明显这种方法很容易自动实现但又很不“科学”,后续研究者们不断优化和改进这条游戏规则,但基本思路基本没有变,这就是著名的BLEU算法。那么刚才所说的“最佳译文”就是BLEU得分最高的译文。但实用的机器翻译的译文优劣绝不能用BLEU来评判(当然也不能用信达雅来评判),我认为实用的机器翻译系统都是服务于特定用户的,那么用户评价或者面向翻译任务的译文评价应该是较为客观和科学的评判标准。

3、实验室里开发的机器翻译系统和实用的机器翻译系统有何区别?

塑料假花和真花的区别。实验室里开发的系统专注于系统的优化,而实用的系统要考虑到翻译的真实场景。具体可参见颜水成的《学界与工业界的AI研究:有哪些重要不同?》。

4、基于规则的和基于统计的机器翻译哪个强?

实际上将机器翻译系统开发简单归类于基于规则和基于统计两类是很不科学的:既不符合机器翻译发展历程,又不能反映出机器翻译开发的现状。机器翻译的雏形本来是噪声信道模型(基于统计的),但早期的开发者们天真地以为依靠双语对应的语法规则就可以实现(基于规则的),后来发现此路不通以后就提取一些有用的双语模版(基于实例的)用于统计,直到统计模型在模式识别领域大放异彩时机器翻译界才引入了统计机器翻译。历史又一次重现,深度学习和神经网络在语音和图像处理领域取得很大进展时,神经网络机器翻译系统也应运而生。机器翻译每一次进步都是在前面研究的基础上的深化和升华,不存在哪种系统好哪种系统差。

5、机器翻译的下一次深化或者升华会是什么样的?

我不是未来学家,也不会未卜先知,但我认为将现有的机器翻译技术与认知科学、脑科学相结合会取得较大进步:计算机能很好地处理人类教给它的知识是因为人类教给它的知识是已知的知识,但人类语言的运行机制是什么样的我们并不十分知晓,所以我们先得弄清楚自己不知道的知识才能教给计算机这些知识让它去处理。下一步则就要计算机尝试去处理人类“未知的”知识:学习人类如何将“未知”变成“已知”。

6、那是不是说机器将会具有人类的“智能”?

哦,这个似乎已经超出了机器翻译的范畴,但我还是很乐意用乔老爷的反问句来回答“机器会不会思考”之类的问题----Can submarine swim?

7、MT+PE的模式会不会让译员变懒?

懒译员在任何工作模式下都会懒,MT+PE只会让勤快的译员更加勤快。

8、机器翻译会让译员失业吗?

行业危机无时不在,技术改变了生活为什么不能改变翻译呢?译员不用过分担心自己将来会不会失业----如果你不幸失业了,那原因只能是你翻译得不够好而绝非你不懂技术----机器翻译会让不称职的译员失业。但译员的培养和培训机构要有行业担当,当然,译员的自主学习也非常重要。

9、译员还要不要学习CAT?

实用的机器翻译系统要走出实验室走向应用还有很长的一段路要走,职业译员在不能直接应用实用的MT技术之前,学习使用CAT是基本的职业技能之一;CAT和PE侧重点不同,前者注重语料复用和术语的一致性,而后者注重译文的再加工,不矛盾;越来越多的CAT工具开始集成MT插件和提供PE界面,将来CAT和MT可以进行更好的融合。

10、文科生能学机器翻译吗?

我就是文科生。

本文来自企鹅号 - 翻译学研究媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏华章科技

6年级学Python,高中学AI?这6本书,助你找回输掉的起跑线

导读:新学期开始了,数据叔猜你一定带着 想死 期待的心情回到了学校。数据叔也相信在刚过去的暑假里你一定有所收获!(至少收获了体重吧?)为了迎接新学期,数据叔今天...

673
来自专栏大数据文摘

统计学发展方向的选择

1887
来自专栏新智元

谷歌实习博士访谈:我终于拥有了在大学实验室梦寐以求的算力

【新智元导读】正在谷歌实习的慕尼黑工业大学博士在读生 Philip Haeusser 的研究领域是计算机视觉。在这篇访谈中,他谈到了自己在谷歌的实习项目、经历、...

2584
来自专栏人工智能头条

当今世界最NB的25位大数据科学家

2184
来自专栏人工智能头条

知人知面需知心——论人工智能技术在推荐系统中的应用

1645
来自专栏顶级程序员

当今世界最NB的25位大数据科学家

引言   在大数据技术飞速发展的今天,谁才是我们大数据科研与工业界中最有威望的科学家呢?下面我们来进行梳理,共罗列了25位当今世界,无论是在学术与工业界都产...

2798
来自专栏AI科技评论

专访数据挖掘领头人韩家炜教授:不要迷信权威,做学问要秉承「三个真实」

由中国人工智能协会、深圳罗湖区人民政府主办的「CCAI 2018 中国人工智能大会」于 7 月 28-29 日在深圳召开。

843
来自专栏数据科学与人工智能

【数据科学家】当今世界最牛的25位顶尖大数据科学家

引言 在大数据技术飞速发展的今天,谁才是我们大数据科研与工业界中最有威望的科学家呢?下面我们来进行梳理,共罗列了25位当今世界,无论是在学术与工业界都产生巨大影...

2605
来自专栏PPV课数据科学社区

当今世界最NB的25位大数据科学家

引言 在大数据技术飞速发展的今天,谁才是我们大数据科研与工业界中最有威望的科学家呢?下面我们来进行梳理,共罗列了25位当今世界,无论是在学术与工业界都产生巨大影...

4205
来自专栏美团技术团队

机器学习中模型优化不得不思考的几个问题

? 图1 机器学习工程师的知识图谱 图1列出了我认为一个成功的机器学习工程师需要关注和积累的点。机器学习实践中,我们平时都在积累自己的“弹药库”:分类、回归、...

3355

扫码关注云+社区