论机器翻译之浅薄

翻译 | shawn

编辑 | 波波、费棋

【AI科技大本营导读】尽管机器翻译明显玩不转备受期待的长篇内容,但我们得承认,在快速获知单词含义层面,它确实为人们提供了一定便利。可奇怪的是,无论媒体报道还是行业中都似乎营造了一种机器翻译马上要取代人类译者的气氛,这给了人们一种快要成了的错觉。

有人要揭开盲目乐观的面纱,因《哥德尔、埃舍尔、巴赫》一书而获得普利策奖的美国学者侯世达是其中之一。他以自己亲身体验 Google 翻译的经历指出,翻译软件目前是只知其形,还不解其意。进一步说,机器翻译要想替代人类,不应只是单词解码,更重要的是要拥有人类那样对言语意义的理解力。要解决第二个问题,就需要让机器复制人类智能,但技术研究者却回避着这一难题。

以下内容由AI科技大本营翻译:

周日,我朋友 Frank 带了一位丹麦客人来参加我们每周举办的萨尔萨舞会。Frank 的母亲是丹麦人,他小时候在丹麦生活过,能说一口流利的丹麦语。而Frank 的丹麦朋友也能讲英语,按北欧人的标准,还是很流利的。然而,晚上闲聊时我却意外发现,这一对好友却习惯于借助 Google 翻译才能互通邮件:Frank 发邮件会先用英语写好内容,然后用 Google 翻译将其转换成丹麦文;与之相对,他朋友发邮件则会用丹麦语写好内容,然后用 Google 翻译将丹麦文转换成英文。

你说这事怪不怪?他们明明都能听懂对方说的话,但为什么偏偏要用 Google 翻译,这不多此一举吗?

以我跟机器翻译软件打交道的经验,它们的翻译效果我一直持高度怀疑态度,但这两人却不以为然。事实上,很多很有头脑的人都是翻译软件的拥趸,极少去苛责机器翻译的浅薄,这让我很是不解。

作为一个语言爱好者、一个富有激情的译者以及一个认知科学家,我一生都折服于人类头脑的精妙,数十年来一直致力于翻译工作的机器化。这一课题首次令我产生兴趣是在70年代中期,当时,我读到了一封 1947 年的信,是机器翻译的早期拥护者 Warren Weaver 写给 Norbert Wiener 的。信中,Weaver 提出了一个相当有名的观点——翻译即解码,他的原话是这样的:

每当看到俄语文章时,我会这样说,“这篇内容事实上就是用英文写的,只不过有人用一些奇怪的符号对它进行了加密。接下来,我只需将其进行解码即可。”

不过,数年之后,他又抛出了一个截然不同的观点:

“明眼人都清楚,机器成不了普希金,机器翻译永远都无法传达出语言本身的优雅与格调。”

我发现,Weaver 后来的这个观点更让我感同身受,特别是在我投入整整一年时间将普希金的长篇诗体小说《叶普根尼-奥涅金》翻译成了英文,其中的艰辛就是如何把读出来的俄语内容彻底地重新创作为英文的诗体小说。

Weaver 最开始的观点,只是揭示了语言被过度简化后的一面。即便如此,他在 1947 年“翻译即解码”的观点,早已成为驱动机器翻译发展的重要信条。

自那时起,“翻译引擎”不断改进,特别是最近“深度神经网络”在机器翻译中所取得的成果,让一些评论者们又开始叫嚣人类译者濒临消亡的命运。比如,Gideon Lewis-Kraus 在《纽约时报》发表的那篇《The Great AI Awakening》,以及 Lane Greene 在《经济学人》发表的那篇《Machine Translation: Beyond Babel》。根据他们的说法,人类译者将在几年内沦落为翻译质量把控者与错字校对的角色,而不再是文字的生产者。

要是翻译领域果真发展到这一地步,那我的精神生活必将遭受重创。虽说我能完全理解他们要尝试让机器翻译发挥更大价值的魅力所在,但我一点也不想看到人类译者让毫无感情的机器所取代。一想到这些,我就感到惶恐和反感。

在我看来,翻译是一门极其讲究的艺术,它要求译者将丰富的生活经验以及创造性的想象力用在再创作过程。如果机器翻译的勉强还算“不错”的语言,使得人类译者沦为了过时“老古董”,这必将严重打击我对人类智慧的尊崇,留下无尽的困惑与悲伤。

每每读到人们宣称某项新技术又要淘汰人类译者,我就想要亲自一探究竟,部分原因是害怕关于机器翻译的噩梦最后成真,更多的是出于证实该文章有夸大其词之嫌,以疏解我内心的焦虑,因为我坚信戳穿言过其实的 AI 谎言非常重要。

因此,在我读到 Google Brain 用深度学习增强了旧的人工神经网络理论,并以这种技术实现出革命性的机器翻译效果之后,我决定亲自会一会这款最新的 Google 翻译,看它是否真如国际象棋的“深蓝”与围棋界的 AlphaGo 一般,会成为机器翻译领域的颠覆者?

众所周知,旧版的 Google 翻译可以处理很多种语言,但深度学习版的新 Google 翻译最初只支持 9 种语言(译注:目前是 96 种)。于是,我把探讨的语种限定在四种:英语、法语、德语和中文。

在展示我的发现之前,我要先指出一点——“(deep)深度”一词作为多义词,在这里有滥用之嫌。当人们听说 Google 收购了一家用“深度学习”增强“深度神经网络”来做产品的公司(公司名还是 DeepMind)时,他们下意识会把“深度(deep)”理解为“深奥(profound)”,继而推导出“强大”、“见解深刻”、“深谋远虑”的意思。但是,“深度”在这里的真实含义,仅仅是说这些神经网络的层数比过去只有 2 到 3 层的旧网络多一些而已(比如 12 层)。不过,多出来的这几层是否意味着神经网络所完成的任务一定很“深奥”?那可不见得,那只是语言上的使用技巧。

对于 Google 翻译,我一直怀有较深的戒心,毕竟媒体对其炒作太过了。但是讨厌归讨厌,Google 翻译的一些能力还是让我深感惊奇。全球每一个人都可以免费使用这项服务,它可以在大约 100 种语言之间任意翻译。这一点确实令人类自感羞愧。如果我敢自称“多语言者”,那 Google 翻译就是当之无愧的“百语者”,毕竟我会的语言只有 3 种左右,其中一些语言还是略懂一点点,所以自称“多语言者”是比较心虚的,但 Google 翻译的一百种语言可真是货真价实。

事实上,我只需把 A 语言的文本复制粘贴到 Google 翻译的输入框内,它瞬间就能把整页内容翻译成 B 语言。况且,Google 翻译还可以时刻不停地为全球用户提供多种语言翻译服务。

Google 翻译的实用价值毋庸置疑,总体来说它还是个不错的产品。但它所用的方法却存在很大的缺陷,用一个词来描述就是——理解。毕竟,机器翻译的焦点从来都不是理解语言;相反,该领域的研究策略一直都是避开内容的理解及其含义,亦即“解码”。那么,想要翻译好文章,没有对内容的理解果真可行吗?人或机器的高质量翻译,真能离开语言的含义而独自完成吗?

为了探讨这里问题,我亲自用 Google 翻译做了一些实验,接下来会详细解释。

英-法互翻

一上来,我用的是短句,它的意思简单明了,很容易理解:

In their house, everything comes in pairs. There’s his car and her car, his towels and her towels, and his library and hers.

(意为:在他们家里,所有的东西都成双成对。他和她有着各自的汽车、毛巾与收藏室。)

这句话的翻译看上去很简单,不过在法语和其他罗曼语中,Google 翻译对物主代词“his(他的)”或“her(她的)”的处理并不反映性别的变化,因为它处理的只是物主代词后面的名词,给出来的结果是这样的:

Dans leur maison, tout vient en paires. Il y a sa voiture et sa voiture, ses serviettes et ses serviettes, sa bibliothèque et les siennes.

果不其然,Google 翻译落入了我的圈套,它根本无法像人类理解语言:即分清这句话描述的是一对夫妻,知道句子强调的是丈夫有的每样东西,妻子都有与之相配的一个。相反,深度学习引擎使用同一个词“sa”来指代“his car(他的车)”与“her car(她的车)”,令读者无从判断汽车所有者的性别。同样,它还使用无性的复数形式“ses”来指代“his towels(他的毛巾)” 和 “her towels(她的毛巾)”。而对最后“his library and hers(他和她的收藏室)”的翻译,名词性物主代词“hers”的“s”彻底把 Google 翻译迷惑了,它以为“s”代表的是复数形式 (“les siennes”)。到最后,Google 翻译彻底误解了这句话所要表达的意思。

为了传达原句的本来意图,我只好亲自将这些短句翻译成法语:

Chez eux, ils ont tout en double. Il y a sa voiture à elle et sa voiture à lui, ses serviettes à elle et ses serviettes à lui, sa bibliothèque à elle et sa bibliothèque à lui.

其中,“sa voiture à elle”表示的是“her car”,“sa voiture à lui”表示的则是“his car”。表达清楚后,让 Google 翻译将我的法语准确译回英语,我以为是水到渠成的事了。但我又一次想多了,它错得更是离谱:

At home, they have everything in double. There is his own car and his own car, his own towels and his own towels, his own library and his own library.

这说的都是什么?尽管我在句中尽可能明显地突出了所有者的性别信息,Google 翻译还是一个睁眼瞎,完全不知道这句话所要传达的最关键信息,而是简单将所有人物主代词都转换成阳性的"his"。为什么会是这样?

我们人类能理解夫妇、房子、个人财产、自尊心、竞争、嫉妒、隐私等各种各样抽象的概念,以及其它更为复杂的情形所形成的癖好,比如一对夫妇要把各自的毛巾绣上“his(他)”与“her(她)”。

Google 翻译却无法理解这样的情境,或者说,它无法理解任何语境信息。它所熟悉的只是由字母所构成的单词、由单词所构成的字符串。Google 翻译所关心的的只是如何对文本碎片化快速处理,而非文本背后的思考、想象、回忆或者理解。它甚至不想知道单词背后所代表的事物是什么。原则上,计算机程序可以理解语言的含义,可以拥有想法、记忆和经验,并且可以使用它们,但这不是 Google 翻译开发的初衷。它的开发者们甚至都没有这样的雄心。

看到 Google 翻译这些令人啼笑皆非的语句,我不禁长舒一口气——机器翻译终究还是无法取代人类译者。但我认为,我还是应当更加细致地测试一番 Google 翻译。毕竟,孤证不立,一燕难成夏(One swallow does not thirst quench)。

那么,对于这句“One swallow does not thirst quench”——我从谚语(“One swallow does not a summer make”,意为孤燕不成夏)中新编出来的话,Google 翻译把它会翻成什么样的法语语句呢?试过之后,Google 翻译输出给我这么一个结果:“Une hirondelle n’aspire pas la soif”。这个翻译倒也符合法语语法,但却着实让人费解。

首先,它用一种燕子(“une hirondelle”)来指代燕科(swallow)所包含的 74 种鸟,并说这只鸟没有在吸啜(“n’aspire pas”),而鸟吸啜的对象竟然是口渴(“la soif”)。显而易见,Google 翻译完全没有理解我的意思,它只是将句子重新编码成一堆乱七八糟的符号。而这句话“Il sortait simplement avec un tas de taureau.”,它竟翻译成“He just went out with a pile of bulls(他刚跟一大堆公牛出去了).” 再将其翻译回法语便成了“Il vient de sortir avec un tas de taureaux”。请原谅我这糟糕的法语,更准确地说,是 Google 翻译的伪法语。

英-德互翻

说完法语,我们再来看德语。最近,我迷上了奥地利数学家 Karl Sigmund 的书《Sie nannten sich der Wiener Kreis》,英文名是《They Called Themselves the Vienna Circle(他们自称是维也纳学派)》。这本书写的是上世纪 20 年代到 30 年代的一群维也纳理想主义知识分子,他们对后世的哲学和科学有着重大的影响。

我就用 Sigmund 在这本书中所写的一小段文字来测试 Google 翻译,看它能翻译出什么样的英语。我们一一来看,首先是 Sigmund 所写的德语原文,然后是我自己的翻译,最后是 Google 翻译的结果。(顺便说一下,我让两位母语是德语的人检查过我自己的翻译,其中包括 Karl Sigmund 本人,你基本可以认定我的翻译是准确的。)

Sigmund:

Nach dem verlorenen Krieg sahen es viele deutschnationale Professoren, inzwischen die Mehrheit in der Fakultät, gewissermaßen als ihre Pflicht an, die Hochschulen vor den “Ungeraden” zu bewahren; am schutzlosesten waren junge Wissenschaftler vor ihrer Habilitation. Und Wissenschaftlerinnen kamen sowieso nicht in frage; über wenig war man sich einiger.

侯世达翻译:

After the defeat, many professors with Pan-Germanistic leanings, who by that time constituted the majority of the faculty, considered it pretty much their duty to protect the institutions of higher learning from “undesirables.” The most likely to be dismissed were young scholars who had not yet earned the right to teach university classes. As for female scholars, well, they had no place in the system at all; nothing was clearer than that. (意为:战败后,教授们的政治倾向仍以泛德意志主义为主,他们认为自己有责任保护高等研究所免遭“不受欢迎的人”侵扰。其中最有可能遭受敌视的,就是那些尚未有权利教大学课程的年轻学者。至于女性学者,则完全没有她们的立身之处,没有比这更清楚的了。)

Google 翻译:

After the lost war, many German-National professors, meanwhile the majority in the faculty, saw themselves as their duty to keep the universities from the “odd”; Young scientists were most vulnerable before their habilitation. And scientists did not question anyway; There were few of them.

Google 翻译结果中的词汇倒也都是英文单词,纵然如此,其中有几个单词还是很不恰当地用成首字母大写的形式,不知什么原因。这些词开始还能组成一句话,但越往后,你就越不知所云,翻译效果惨不忍睹。

我们先看引号中的“the ‘odd.”,它在德语原文中所对应的是“die ‘Ungeraden”,意指“在政治上不受欢迎的人”。不过,Google 翻译在这里将其译为“odd”是有原因的:统计。也就是说,在 Google 翻译所用的庞大双语数据库内,“ungerade”几乎总是被译成“odd”。

虽说翻译引擎自己并不懂得为何要如此转换,但我能告诉你原因。这是因为 “ungerade” 在使用中几乎总是“奇数(无法被2整除的数)”的意思,尽管它在字面上的意思是“不直的”或“不平的”。相反,我用“undesirables”一词来译“Ungeraden”就跟单词的统计数据毫无关系了,纯粹是基于我对上下文的理解——它的含义深藏于字里行间,任何德语词典的“ungerade”释义都文不对题。

然后说说另一个德语单词“Habilitation”,它指的是一种大学职位,类似于终身教授。在英语中,与“Habilitation” 同源的词汇尽管存在,但却极为罕见,读者肯定不会把它和终身教授联系到一块。这就是为什么我要简单解释一下词中这层含义,而非直接去用一个生僻词,要不普通英语读者读起来肯定一头雾水。Google 翻译当然是做不到这一点的,它压根就没有读者所具有的知识模型。

原文的最后两句很好地证明了“理解”在翻译中的重要性。“Wissenschaftler”这个由 15 个字母组成的单词指的是“科学家”或“学者”(我认为是后者,因为按原文语境它指的是知识分子阶层。Google 翻译没有理解出这层微妙的含义)。最后一句中的“Wissenschaftlerinnen”是“Wissenschaftlerin”的复数形式,而且是一个阴性德语名词。“Wissenschaftler”在语法上是阳性名词,指的是男性学者,“Wissenschaftlerinnen”是阴性名词,只能指女性学者。我翻的时候用“female scholar”来传达这层含义。但是,Google 翻译并不知道“Wissenschaftlerin”中的后缀“-in”是最后一句中需要仔细注意的地方。它不知道这个词指的只是男性学者,因此它用的是“scientist”这个词,丢失了原句要点。和之前翻译法语一样,Google 翻译完全不知道这个德语句子的唯一目的是突出男性和女性对比。

除了这个重大错误,最后一句其他部分的翻译简直是灾难。先看前一半。“scientists did not question anyway”真的是“Wissenschaftlerinnen kamen sowieso nicht in frage”的正确翻译吗?译文和原文的含义完全是牛头不对马嘴,译文中的单词只是按照德语单词随意生成的,这能称得上是“翻译”吗?

最后一句后半部分的翻译也同样很糟糕。最后六个德语单词字面上的含义是“over little was one more united”,更流畅地说是“there was little about which people were more in agreement”(这一点几乎没什么异议),但是 Google 翻译将这个明显的含义翻译为“There were few of them(几乎什么都没有)”。读者看到一定会疑惑地问“Few of what?(什么没有)”,但是对机器翻译这个机械听者而言,这个问题没有意义。Google 翻译没有想象能力,因此它无法回答这种看起来很简单的问题。它在翻译时并不会进行大量或些许想象。它只是随意组合单词,对单词所代表的含义完全没有概念。

ELIZA 效应

对于具备人生经验和理解能力,并能熟练使用文字不同含义的人来说,他还是很难意识到 Google 翻译生成的译文有多么空洞。人们想当然认为,可以如此流畅处理文字的软件肯定理解个中含义。人们对人工智能项目产生的经典幻觉被称为是“ELIZA 效应”。上世纪 60 年代,一个名叫 ELIZA 的项目可以让用户相信它可以理解英语,实际上它根本不知道自己在说什么。ELIZA 模拟一名心理治疗医师,与它“聊天”的许多用户都误以为 ELIZA 可以深刻地理解他们的内心感受。

数十年来,ELIZA 效应骗过了很多见多识广的人,甚至包括一些人工智能研究人员。为了让读者可以避开这个陷阱,我将引用上文中的几个句子来说明:“Google 翻译不理解”,“Google 翻译没有意识到”、“Google 翻译没有最起码的想法”。这些句子看起来似乎是自相矛盾的,一方面说 Google 翻译缺乏理解能力,另一方面又暗示 Google 翻译至少有时可以理解单个单词、短语或句子的含义。事实并非如此,Google 翻译的设计就是为了回避或规避理解语言的。

在我看来,“翻译”一词散发着神秘且动人的气息。它是一种人文色彩浓厚的艺术形式,要求译者要优雅地用语言 B 将语言 A 中明确的思想表达出来,这个过渡过程不仅要确保明确性,而且还要将原作者写作风格、技巧和特质传达出来。在翻译之前,我首先会仔细地阅读原文,将原文中的思想尽可能清晰地印在我的脑中,一遍又一遍地咀嚼。我咀嚼的不是原文文字,而是文中那些激发各种相关思想的思想,通过这样做,我可以在我的脑中构想出丰富的相关场景。不用说,大部分构想过程是潜意识的。只有当我的脑中构建的场景足够丰富时,我才会试着用另一种语言将它们表达出来——“将它们提取出来”。在翻译时,我试着以我认为的自然方式用语言 B 表达我脑中的场景,这些场景构建的就是原文的含义。

简而言之,我不是将语言 A 的单词和短语直接译为语言 B 的单词和短语。在翻译时,我会下意识地在脑中构出图像、画面和想法,挖掘我以往(读过、在电影中看过或从朋友口中听过的)的经验。只有当非言语的、意象式的、经验性的思维构想在我脑中形成时——只有当象征原文含义的虚无缥缈的气泡在我脑中漂浮时——我才会用目标语言组织单词和短语,然后再一遍又一遍进行修改。这个以文本含义为媒介的翻译过程虽然听起来相当缓慢(与 Google 翻译两三秒翻译一页文本的速度比起来确实慢),但它正是所有严肃的人类译者在翻译时要完成的一个过程。这种翻译才是我听到“deep mind”(深度思维)这样的词组时所理解的翻译。

中-英互翻

接下来我检验了 Google 翻译的中文翻译。相比法语和德语这两种欧洲语言,中文对深度学习软件的挑战更大得多。我从中国剧作家和翻译家杨绛(最近以 104 岁的高龄逝世)的回忆录《我们仨》(We Three)中节选一部分作为测试材料。杨绛的这本书讲述的是她和她的丈夫钱钟书(小说家和翻译家)以及女儿的生活。这本书虽然不是特别晦涩,但是它的文字相当考究且生动。我节选了一小段,让 Google 进行翻译。以下是Google 翻译给出的结果和我本人的翻译(经过中文母语者的检查):

杨绛:

锺书到清华工作一年后,调任毛选翻译委员会的工作,住在城里,周末回校。 他仍兼管研究生。 毛选翻译委员会的领导是徐永煐同志。介绍锺书做这份工作的是清华同学乔冠华同志。 事定之日,晚饭后,有一位旧友特雇黄包车从城里赶来祝贺。客去后,锺书惶恐地对我说: 他以为我要做“南书房行走”了。这件事不是好做的,不求有功,但求无过。

侯世达翻译:

After Zhongshu had worked at Tsinghua University for a year, he was transferred to the committee that was translating selected works of Chairman Mao. He lived in the city, but each weekend he would return to school. He also was still supervising his graduate students. The leader of the translation committee of Mao’s works was Comrade Xu Yongying, and the person who had arranged for Zhongshu to do this work was his old Tsinghua schoolmate, Comrade Qiao Guanhua. On the day this appointment was decided, after dinner, an old friend specially hired a rickshaw and came all the way from the city just to congratulate Zhongshu. After our guest had left, Zhongshu turned to me uneasily and said: “He thought I was going to become a ‘South Study special aide.’ This kind of work is not easy. You can’t hope for glory; all you can hope for is to do it without errors.”

Google 翻译:

After a year of work at Tsinghua, he was transferred to the Mao Translating Committee to live in the city and back to school on weekends. He is still a graduate student. The leadership of the Mao Tse Translation Committee is Comrade Xu Yongjian. Introduction to the book to do this work is Tsinghua students Qiao Guanhua comrades. On the day of the event, after dinner, an old friend hired a rickshaw from the city to congratulate. Guest to go, the book of fear in the book said to me: He thought I had to do “South study walking.” This is not a good thing to do, not for meritorious service, but for nothing.

下面我将指出几个奇怪的地方。首先,虽然“锺书”这个名字在原文中出现了三次,但是 Google 翻译却没有将它表达为人名。在第一处,Google 翻译使用了人称代词“he”,第二处,Google 翻译将“锺书”翻为“the book”;第三处,Google 翻译将“锺书”翻为“the book of fear in the book”。看看这是什么翻译!

第二个奇怪的地方在第一段中,文中说的是锺书兼管研究生,而 Google 翻译却说他本人是研究生。

第三个奇怪的地方在“毛选翻译委员会”(Mao Tse Translation Committee)这个短语上,Google 翻译遗漏了中国主席毛泽东的名字中的“泽”字。

第五个奇怪的地方是“after our guest had left”被缩减为“guest to go”。

第六个奇怪的地方是 Google 翻译的译文最后一句根本说不通。

这六个错误已足以让 Google 翻译颜面扫地,我们暂不追究。下面我们看一个令人疑惑的短语:最后一段中双引号中的内容(“南书房行走”)。这个短语逐字可以翻译为“south book room go walk”,这显然是讲不通的,它在原文中充当的是一个名词,而 Google 翻译的“South study walking”根本不对。

我承认我也不理解这个中文短语是什么意思。虽然从字面上看,它指的是在某个建筑南侧的一个书房中走来走去,但是我知道这肯定不对;它在上下文语境中根本讲不通。为了翻译这个短语,我必须查清是不是有什么我不知道的中国文化。我该找谁帮忙呢?找Google!(但不是 Google 翻译)。我连带双引号在 Google 搜索中用中文输入了“南书房行走”,搜索引擎很快显示了一大堆中文网页。然后我艰辛地阅读了前几个网页中开头几段内容,试图弄清这个短语是什么意思。

我发现这个短语可以追溯到清朝(1644–1911),它指的是皇帝的书房先生。书房先生的职责是“在故宫的南书房”帮助皇帝撰写皇旨。“行走”字面上指的是“go walk”,但实际上指的是助手。根据 Google 搜索提供的信息,我将这个短语翻译为“South Study special aide”。

Google 翻译无法像我一样利用 Google 搜索的服务,这是不是很可惜?虽然 Google 翻译可以在眨眼之间翻译网页,但是它无法理解这些网页的内容。它能吗?以下是我将上文中搜索网页的内容提交给 Google 翻译后给出的输出文本:

“South study walking” is not an official position, before the Qing era this is just a “messenger,” generally by the then imperial intellectuals Hanlin to serve as. South study in the Hanlin officials in the “select chencai only goods and excellent” into the value, called “South study walking.” Because of the close to the emperor, the emperor’s decision to have a certain influence. Yongzheng later set up “military aircraft,” the Minister of the military machine, full-time, although the study is still Hanlin into the value, but has no participation in government affairs. Scholars in the Qing Dynasty into the value of the South study proud. Many scholars and scholars in the early Qing Dynasty into the south through the study.

这真的是英语吗?当然我们知道都是——确切地说,大部分是英语单词,但是这是一段英语文章吗?在我看来,这段内容没有任何含义,因此它算不上是英语。它只是一团乱七八糟的随机英语单词沙拉或逻辑不清的单词大杂烩。

如果你有兴趣,下面是我对这段网页内容的翻译(花了我数小时时间):

The nan-shufang-xingzou (“South Study special aide”) was not an official position, but in the early Qing Dynasty it was a special role generally filled by whoever was the emperor’s current intellectual academician. The group of academicians who worked in the imperial palace’s south study would choose, among themselves, someone of great talent and good character to serve as ghostwriter for the emperor, and always to be at the emperor’s beck and call; that is why this role was called “South Study special aide.” The South Study aide, being so close to the emperor, was clearly in a position to influence the latter’s policy decisions. However, after Emperor Yongzheng established an official military ministry with a minister and various lower positions, the South Study aide, despite still being in the service of the emperor, no longer played a major role in governmental decision-making. Nonetheless, Qing Dynasty scholars were eager for the glory of working in the emperor’s south study, and during the early part of that dynasty, quite a few famous scholars served the emperor as South Study special aides.

一些读者可能怀疑我为了抨击 Google 翻译故意挑选了翻译得很差的片段,他们认为实际上 Google 翻译的结果有绝大部分段落的表现要更好。这似乎听起来有点道理,但是事实并不是这样。从我正在阅读的书中节选出的一些内容输入到 Google 翻译,它翻译的每一段都有各种各样的大错误和小错误,包括像上文那样的无意义和无法理解的句子。

当然我承认,Google 翻译有时候给出的翻译确实看起来不错(尽管它们可能是有歧义或是完全错误的)。一整段或几个句子可能翻得相当不错,但这可能让人错误地认为 Google 翻译知道自己在做什么,知道什么是“阅读”。在这种情况中,Google 翻译似乎真的表现得很好——几乎像人一样!这当然归功于它的创造者以及他们的努力。但同时,不要忘了 Google 翻译在翻译上面两段中文以及法语和德语文章时的糟糕表现。

为了理解这样的糟糕表现,我们必须时刻谨记 ELIZA 效应。Google 翻译虽然可以翻译一百多种语言,但是它不能阅读——人类定义中的“阅读”。它只是在处理文本,它处理的符号是和现实生活经验脱节的。Google 翻译没有可以利用的记忆和理解能力,它快速生成的翻译有时甚至没有任何含义。

机器离真正理解语言有多远?

一位朋友曾问我,Google 翻译的翻译水平是否只是程序数据库的一个函数。他的观点是,如果将数据库的大小扩大一百万倍或十亿倍,最终 Google 翻译将能完美地翻译任何语言。我并不这样认为。再多的“大数据”也不能让机器拥有理解能力,因为理解的关键在于有思想。没有思想是当前机器翻译所有问题的根本所在。因此,我认为更大的数据库——甚至超大的数据库——是无法解决问题的。

另一个常见的问题是,神经网络技术的使用是否能帮助机器实现真正的语言理解能力。刚开始时这听起来很有道理,但是现在的尝试全都局限在单词和短语的翻译上。神经网络虽然可以利用各种关于大型数据库的统计学事实,但是这些统计学事实只是将单词与其他单词联系起来而已,而不是将单词与思想含义联系起来。当前还没有人在尝试创造可以实现思想、想象、记忆或经验的内部结构。现在来说,用计算实现这样的超智能技术简直是天方之谈,因此人们才转向快速、成熟的统计学词语聚类算法。但是这种算法得出的结果差强人意,跟人类阅读、理解、创造、修改和评价一篇文章时的思维过程根本无法相提并论。

虽然我持否定态度,但是仍有很多人对 Google 翻译提供的服务评价很高:它将语言 A 写就的有意义文本简单快速地转换为了由语言 B 组成的意义并不明显的文本。只要语言 B 文本或多或少可以让人理解,许多人对此就会感到非常满意。如果他们可以“大致理解”用他们不懂的语言写的文章,他们就满足了。我个人认为 “翻译”的定义并不是这样,但是一些人认为 Google 翻译是一项好服务,而且给出的结果可以算作是翻译。好吧,我知道他们的需求,我也理解他们为什么会感到满意。这对他们而言是一种幸运。

我最近看到一些新技术爱好者制作的条形图,他们用此来代表人类和计算机翻译的质量,这些条形图表明最新的翻译引擎在翻译水平上已非常接近人类了。在我看来,将不可计量的假科学进行量化,实际上只是技术狂们试图用数学来解决他们不理解的无形、微妙、艺术性的东西。依我之见,当前 Google 翻译得出的结果有的很好,有的则十分可笑,但是我无法量化我对这些翻译的感受。以我举的第一个例子来说,无思想的 Google 翻译几乎把所有单词都翻译对了,但是它完全没有翻出原文的含义。在这种情况下,翻译的质量可以被量化吗?用看上去很科学的条形图来表示翻译质量,只不过是乱套上科学的“外衣”而已。

谈到人类译者未来令人悲哀的境况,他们不久便会被机器超越并淘汰,逐渐成为质检员和校对员。对平庸的译者来说,这是最好的出路。但是真正的艺术家是不会屈身于处理错误满篇的译文,通过到处修改来生成高雅的艺术作品。这不是艺术的本质,而翻译却是一门艺术。

在多年的写作生涯中,我一直认为人类大脑是一种机器——一种非常复杂的机器,我非常反对机器本身无法处理含义的观点。有一个哲学家学派甚至声称计算机是永远无法“掌握语义”的,因为它们的“构造”(硅)是错的。在我看来,这完全是无稽之谈。在本文中我不会探讨这一论题,但是我不想让读者认为我相信机器是永远无法实现智能和理解的。如果我在本文给读者造成这种印象,那是因为我在本文中讨论的技术没有尝试复制人类智能。相反,它试图用迂回的方法来避过人类智能,上文中给出的译文清楚地揭示了这种技术的缺陷。

我认为,没有任何实质性理论依据可以证明:在理论上机器无法思考、创造、搞笑、怀旧、激动、害怕、狂喜、顺从、满怀希望,无法完美地翻译语言。也没有实质性理论依据可以证明:机器不可能完美地翻译笑话、双关语、剧本、小说、诗歌或像本文这样的文章。但是只有当机器像人类一样拥有思想、感情和经验时,这样的美梦才会实现。我相信这一天离我们还很远,作为一个对人类心智的深奥的崇拜者,这是我所热切希望的。

如果有一天翻译引擎可以用英语创作出巧妙绝伦、富有感染力、朗朗上口的诗体小说,而且是韵脚采用抑扬格调的四音步诗,那时,我就该隐退文坛了。

原文地址:https://www.theatlantic.com/technology/archive/2018/01/the-shallowness-of-google-translate/551570/

本文分享自微信公众号 - AI科技大本营(rgznai100)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-04-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏华章科技

大数据:更多的数据还是更好的算法?

我知道很多人自始至终都认为数据是越多越好,Google甚至直言:更多的数据胜过更好的算法,而过去很多侦探剧中崇尚“信息越多,就越靠近真相”的刑侦金句也似乎佐证这...

7800
来自专栏飞总聊IT

BlinkDB及其问题

BlinkDB是UCBerkeley和MIT的Sam一起做出来的一个基于Sampling的系统,系统大致成型的时间在2012年前后,该论文也投过DB的会议一路被...

46270
来自专栏大数据文摘

10个巨大的科学难题需要大数据解决方案

17840
来自专栏新智元

48小时封镜!这是一部完全由AI制作的科幻电影

15130
来自专栏互联网杂技

知其所以然(以算法学习为例)

其实下文的绝大部分内容对所有学习都是同理的。只不过最近在正儿巴经地学算法,而后者又不是好啃的骨头,所以平时思考总结得就自然要比学其它东西要多一些。 问题:目前几...

38180
来自专栏和蔼的张星的图像处理专栏

秋招记录

今天9月29号,昨天下午签了华为,软件开发,薪资白菜价,不过也可以接受。因为想留在西安,华为基本上算是最好的选择了,所以暂时也不打算在找了,秋招算是结束了。 ...

18220
来自专栏AI研习社

谷歌大脑是如何炼成的:万字无删减版全解密(下)

唯物按:如果说到在机器学习领域领先的公司,一定不能忽略谷歌。从谷歌翻译到从机器视觉,谷歌一直努力将机器学习应用于可能想象的任何地方。文章从技术、制度、思想演变三...

43140
来自专栏人工智能头条

开玩乐,在移动端也能进行机器学习?做物体识别?TensorFlow on Android?

最近中美之间因为贸易战闹得很不愉快。美国非常鸡贼啊,掐死了高新科技这条路,这样一来我们依赖美国专利技术的行业就非常难受。但是,虽然美国这次做的很不地道,可也让我...

13130
来自专栏新智元

无脑有机体也有学习能力

【法新社巴黎4月26日电】智力是什么?定义各不相同,但所有定义都指向利用灰质———无论是猫还是人———从经验中学习。 科学家20日宣布了一项颠覆这一基本假设的发...

37290
来自专栏大数据文摘

北大物理学院欧阳颀院士:成为科学家的五大要素

230100

扫码关注云+社区

领取腾讯云代金券