张霄军:机器翻译十问十答

1、机器翻译就是计算机自动翻译吗?

自行车就是自己会走路的车吗?从实现形式上来看,“全自动机器翻译”确实是计算机在没有人工干预的情况下自动将源语言输入转换成为目标语言输出,但实际上这种“全自动”机器翻译系统完全依赖于开发者在语言建模、算法优化和语料训练等方面的人工干预。目前机器翻译系统开发一般都是在一个“通用”的系统平台(如Moses系统)上根据不同的翻译领域进行相关的语料训练和参数调整,以期产生最佳译文。而实用的机器翻译系统则完全不是“全自动”的,语言工程师进行源语言输入时要对源语言进行预处理,在目标语言输出之后对其进行后编辑,这样才能满足用户的译文质量要求。

2、什么是机器翻译的“最佳译文”?

上面提到的“以期产生最佳译文”是针对机器翻译系统开发而言的:人工评测机器翻译的译文耗时费钱,机器翻译译文评测缺乏一种“客观的”的评判标准。但没有规则游戏就没得玩了,所以一帮人揣摩出一种自动的译文评价方法,大致就是看机器翻译译文里有多少个词能在参考译文里找到,找到的越多那译文质量就越好。很明显这种方法很容易自动实现但又很不“科学”,后续研究者们不断优化和改进这条游戏规则,但基本思路基本没有变,这就是著名的BLEU算法。那么刚才所说的“最佳译文”就是BLEU得分最高的译文。但实用的机器翻译的译文优劣绝不能用BLEU来评判(当然也不能用信达雅来评判),我认为实用的机器翻译系统都是服务于特定用户的,那么用户评价或者面向翻译任务的译文评价应该是较为客观和科学的评判标准。

3、实验室里开发的机器翻译系统和实用的机器翻译系统有何区别?

塑料假花和真花的区别。实验室里开发的系统专注于系统的优化,而实用的系统要考虑到翻译的真实场景。具体可参见颜水成的《学界与工业界的AI研究:有哪些重要不同?》。

4、基于规则的和基于统计的机器翻译哪个强?

实际上将机器翻译系统开发简单归类于基于规则和基于统计两类是很不科学的:既不符合机器翻译发展历程,又不能反映出机器翻译开发的现状。机器翻译的雏形本来是噪声信道模型(基于统计的),但早期的开发者们天真地以为依靠双语对应的语法规则就可以实现(基于规则的),后来发现此路不通以后就提取一些有用的双语模版(基于实例的)用于统计,直到统计模型在模式识别领域大放异彩时机器翻译界才引入了统计机器翻译。历史又一次重现,深度学习和神经网络在语音和图像处理领域取得很大进展时,神经网络机器翻译系统也应运而生。机器翻译每一次进步都是在前面研究的基础上的深化和升华,不存在哪种系统好哪种系统差。

5、机器翻译的下一次深化或者升华会是什么样的?

我不是未来学家,也不会未卜先知,但我认为将现有的机器翻译技术与认知科学、脑科学相结合会取得较大进步:计算机能很好地处理人类教给它的知识是因为人类教给它的知识是已知的知识,但人类语言的运行机制是什么样的我们并不十分知晓,所以我们先得弄清楚自己不知道的知识才能教给计算机这些知识让它去处理。下一步则就要计算机尝试去处理人类“未知的”知识:学习人类如何将“未知”变成“已知”。

6、那是不是说机器将会具有人类的“智能”?

哦,这个似乎已经超出了机器翻译的范畴,但我还是很乐意用乔老爷的反问句来回答“机器会不会思考”之类的问题----Can submarine swim?

7、MT+PE的模式会不会让译员变懒?

懒译员在任何工作模式下都会懒,MT+PE只会让勤快的译员更加勤快。

8、机器翻译会让译员失业吗?

行业危机无时不在,技术改变了生活为什么不能改变翻译呢?译员不用过分担心自己将来会不会失业----如果你不幸失业了,那原因只能是你翻译得不够好而绝非你不懂技术----机器翻译会让不称职的译员失业。但译员的培养和培训机构要有行业担当,当然,译员的自主学习也非常重要。

9、译员还要不要学习CAT?

实用的机器翻译系统要走出实验室走向应用还有很长的一段路要走,职业译员在不能直接应用实用的MT技术之前,学习使用CAT是基本的职业技能之一;CAT和PE侧重点不同,前者注重语料复用和术语的一致性,而后者注重译文的再加工,不矛盾;越来越多的CAT工具开始集成MT插件和提供PE界面,将来CAT和MT可以进行更好的融合。

10、文科生能学机器翻译吗?

我就是文科生。

本文来自企鹅号 - 翻译学研究媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Y大宽

TBtools基因家族分析详细教程(1)

一共分为4个部分 TBtools基因家族分析详细教程(1) TBtools基因家族分析详细教程(2)基因家族成员的基本分析 TBtools基因家族分析详细...

6182
来自专栏AI研习社

干货!从基础到进阶,长文解析微软量子计算概念和算法(上)

我们谈论的量子计算,是一个完全不同的领域。量子计算让我们能够以秒级、 小时级或者几天的时间去解决那些以现在的技术需要花费上亿年计算的问题,我们完全重新定义了所做...

912
来自专栏CDA数据分析师

【零一】#操作教程贴#从0开始,教你如何做数据分析#初阶#第五篇

大家好,我是零一,今天开始继续给大家带来数据分析基础系列教程。我的公众微信号是:start_data,欢迎大家收听。 上一篇中,我们提到波士顿矩阵,波士顿矩阵又...

1779
来自专栏ATYUN订阅号

机器学习可以通过风格确定代码背后的程序员

自动化工具现在可以准确地识别论坛帖子的作者,只要他们有足够的训练数据可供使用。但是较新的研究表明,这也可以应用于人工语言样本,如代码。事实证明,软件开发人员也留...

782
来自专栏Python中文社区

用Python分析《权力的游戏》

專 欄 ❈ 作者:麦艳涛,挖掘机小王子,数据分析爱好者。 原文链接:https://zhuanlan.zhihu.com/p/28475619 ❈ 一:简介 ...

2307
来自专栏ATYUN订阅号

Berkeley发布BDD100K:大型的多样化驾驶视频数据集

Berkeley发布了最大,最多样化的驾驶视频数据集,其中包含丰富的BDD100K注释。您现在可以访问bdd-data.berkeley.edu上的数据进行研究...

822
来自专栏新智元

AI改写人类起源:黑猩猩并不是我们的祖先!

上图是我们对人类从猿到人的进化过程的直观印象,这幅图流传很广、影响很大,但它并不完全正确。

1072
来自专栏华章科技

谷歌背后的数学原理

在如今这个互联网时代, 有一家公司家喻户晓——它自 1998 年问世以来, 在极短的时间内就声誉鹊起, 不仅超越了所有竞争对手, 而且彻底改观了整个互联网的生态...

713
来自专栏大数据挖掘DT机器学习

【趣味】数据挖掘(3)—Apriori算法-论文引用与数据血统论

本文先通俗地介绍快速挖掘关联规则的Apriori算法,然后介绍发表这一算法的论文(它被引用了11480+次),最后关注此文的实际影响 与 传统影响因子的...

3116
来自专栏云时之间

JD数据比赛的一些思路

1:题目要求 参赛者需要使用京东多个品类下商品的历史销售数据,构建算法模型,预测用户在未来5天内,对某个目标品类下商品的购买意向。对于训练集中出现的每一个用户,...

32911

扫码关注云+社区