你的英语为啥学不好?跟机器翻译比比看

对许多中国学生来说,学英语是个相当亏本儿的事儿。

从小学开始,一直学到大学四六级,参加英语考试可谓身经百战。即便不算课外补习,学时也很可观。可是大学毕业后,听说读写4门功课落下来了什么?

听不懂。见着美国人,连一句问候都分辨不出来。人家问啥都得说好几遍”pardon”。

说不出。终于弄明白人家在跟你打招呼,但是除了”hi”, “hello”以外全都卡壳。

读不进去。本科毕业的时候,毕业论文参考文献一水儿的CNKI下载。一篇英文的都没有。因为不拿个字典猜不出意思,拿着个字典想撞墙。

写不出来。大多数人若干次四级考试之后,根本就再也没有尝试过英文写作这事儿了。

在这种悲惨境遇下,近期陆续出现的几则关于机器翻译领域进展的新闻让许多人眼前一亮。

机器越来越聪明,翻译正确率越来越高,处理速度也越来越快。两个不同国家的人坐在对面,都只说自己的语言,就能听懂对方在说啥。那感觉,爽!

不久以后,若是你在国外机场被开箱检查,在奥特莱斯拼命找折扣券扫货,或者是开国际会议时看不懂人家讲稿(你这么大老远跑去干啥?),都可以拿出手机,轻松点开翻译应用,机器全部帮你搞定。

哈哈,再也不用学英语喽!

兴奋之余,人们也在问问题。

大部分人的问题是——这东西怎么不早点儿开发出来?害得我白学了那么多年英语!

作为教师(我不是教英语的),我的职业病让我问出来的问题不大一样:你学了那么多年英语,为啥还不如傻乎乎的机器学得好?它其实只认识0和1啊。

万物灵长的人类是怎么在语言学习上输给机器的呢?因为方法忒糟糕了。

一上学你就学单词,背单词,对吧?各种考试规定了你需要背诵多少单词才能达标。1000, 2000, 4000, 6000, … , 20000.

我读本科的时候,有段某名校“卧谈会”的视频很火。其中一句名言是“你背一个单词,就是1刀(dollar)!”观者无不会心大笑,鼓舞异常。

你背过单词吧?背完了以后最大的感想是什么?

……忘得真快!

你可能坚持按照艾宾浩斯遗忘曲线认真复习巩固。好学生!问题是,那好像都是你上次英语考试之前的事儿了吧?之后呢?

别哭啊。

英语考试考的也不都是单词对吧?

对,还有语法。

你曾经无比坚信,掌握了语法,就掌握了一门语言的精髓,对吗?

这话对,但说的其实是计算机语言这样的受控语言,例如C, Python和Javascript之类的。

可是如果你打算把语法规则的普遍性生搬硬套到人类的语言上……

别闹了!

20多年前,我家刚刚购买电脑的时候,我就曾经尝试过机器翻译工具。为啥?打算做英语作业偷懒呗。 :-P

我用的是初中英语教材。一句句输入进去,等着把答案打印出来,第二天交给老师。

但是翻译的结果让我对这种偷懒彻底失去了信心。”I am a student”之后的句子基本上就都不是人话了。

软件做成这样就拿出来卖钱,有没有点儿业界良心?

且慢。这还真不能怪软件开发商无良,因为当时的技术水平也就到这儿了。

冷战年代,为了加速破译苏联情报,美国弄了一批语言学家搞自动翻译。这可是为了军备竞赛,玩儿真格的。投入的资金、设备和人员都是一流的。

看看当时从事该项目专家的思维模式,就是把语言当做”单词”+”语法”(好熟悉的样子)。单词是现成的,拿本字典来就成。语法得写规则,于是就开始叠床架屋构建繁复的规则体系。可是不管怎么努力,机器翻译出来的内容拿给正常人,谁也看不懂啥意思。

这种翻译方法,最符合人类的直觉。我们的外语课,很不幸,至今大都是如此教和学的。

问题是,现实世界里面人类的语言根本就不只是规则,还包含数不清的特例

否则,英语里面怎么会有“Long time no see”这种奇葩?!符合语法吗?显然不是。可是你真以为这是中国人用的洋泾浜英语?开玩笑,哪个美国人不懂它的意思?还经常自豪地使用呢!

还有“rendezvous”,你说它是法语?人家可是好端端呆在英语词典里面哦。

大家知不知道这样简单粗暴的方式学语言效果不好?知道。

为什么不解决?

好问题。

首先是教学的难度和资源配置相关。

教单词,老师有本字典就够了。

教语法,老师有本教科书+一堆真题就够了。哦,对了,负责任的学校还会弄个录音机,放配套磁带。

老师上课甚至可以用中文,只在中间插播一些英语单词和句子。这也不难理解——你到哪里去找那么多真正掌握了英语语言的学者来从事中小学英语教育呢?英语老师们也是从学生时代走过来的,有的活了半辈子,也没跟外国人说过话啊。

有个美国教授告诉我,她曾经到广西一所中学给学生英文演讲比赛做评委。她一听,就知道某个学生的外教来自哪个国家,一问果然猜中,因此觉得很有趣。我当时没说啥,心里想你一定是被直接拉到了样板校去参观了。这么多外教几个学校聘得起啊?随机找所其他学校去听英文演讲,你只能从中听到某些中国地方口音。 :-P

其次是考试的功用导致。

许多考试的目的,并不是为了传授知识,而是为了选拔人才。因此考试考什么,学校就教什么,学生自然就要学(练)什么。

考试考词汇,大家就背单词;考试考语法,大家就记规则。学完了是不是可以真正掌握一门语言,甚至是学以致用?

我读高中的时候,英语老师很厉害,自创了一套远远比教科书更为通用和有趣的语言规则诠释方法。在这套规则框架下面,许多英语题目一拿过来就被我们大卸八块,然后立即可以找出其中的解题路径和坑在哪里。高中毕业的时候,许多平时认真听讲的同学就是靠着卖英语课笔记的复印版狠狠赚了一笔。

与其他老师不同的是,我的英语老师语重心长地告诉我们:通过高考之后,万不能就此止步。大学里面需要扩大词汇量。扩大词汇量的唯一方法就是广泛阅读地道英文写成的书和文章。什么是地道的英文他没列举,但是当时广大中学生喜闻乐见的某几种英文报刊首先就从列表中被排除了。 :-P

这话他说了许多遍,大多数人都直接当成了耳旁风。考试一结束,你还指望饱受折磨的学生接着好好学英语?有了他那套方法,许多人大二就过了六级,从此跟英语说sayonara了。

可偏偏有几个同学,没有当成耳旁风,而且还毫无耐心地立即开始英文阅读了。这几个家伙现在大都在常春藤高校、华尔街和硅谷出没,没出国的基本上也都进了世界五百强企业。

没天理啊!他们没听老师话啊!

这之后,谁再跟我说学生不听话就会吃亏,呵呵。

语言的掌握是一个过程。需要输入、处理和输出。因为考试的要求,所有人都注重处理和输出这两个环节,忘了语言的输入实际上更重要。用常识想一想,哪个美国孩子是先学会了英语语法,才开始会说话的?

差不多就在我为了高考努力做英语题目的时候,机器翻译界也还在老路上继续碰壁。这时候有个做搜索引擎的小公司实在看不下去了,弄了个翻译工具出来。今天回顾起来,这个产品简直是石破天惊。可在当时,主流学界和业界全都对此——

它最离经叛道的地方在于采用的根本不是语法规则来构建,而是找一大堆语言材料,利用统计方法从若干种可能翻译结果中比较,找出最靠谱的。

你可能不理解,哪儿来的这么多可以对比的语言材料啊?主要来源里面,一个是联合国,出点儿什么公告,肯定得多种文字啊。一个是欧盟,文件里面需要用到的语言种类更多。

不讲究语言规则?简直就是偷懒嘛。你好意思把这东西叫做翻译?!

然而,不久之后人们发现,这种方式居然比那些语言学家鼓捣出来的复杂模型翻译效果还好。更厉害的是,Google把它迅速扩展到数十种语言的相互翻译。太奇妙了!

看到了吗?不管是你的大脑,还是个翻译机器,喂充足的原材料进去,对语言的掌握都是有很大好处的。

别忙着鼓掌啊。停下来想想,现在“Google翻译”还是个褒义词吗?

不是。你翻翻豆瓣或者亚马逊书评就知道了。

这几年读书人的品味越来越高了。读过优秀原版英文书籍的人,不忍见到心爱的作品惨遭蹩脚翻译的蹂躏。他们的吐槽经常用这句:你是拿Google翻译出来的吧?

冤枉啊。Google翻译的设计者可能从来没有想过自己的产品这么快就会被直接用于翻译与出版。当然了,也更没有想到过自己的产品会成为中国研究生应付导师翻译作业的利器。 :-P

为什么?因为Google翻译的质量虽然比“单词”+“语法”的直觉模型好了许多,但是依然有很大改进余地。

Google知道这一点。不过作为“印钞机”公司,它首先想到的不是如何快速改进自己产品的质量,而是发现了商机!

它和许多翻译公司合作,给需要高质量翻译结果的用户提示——这篇文章想不想找真人帮你认真翻译啊?想的话请缴费,只要$XXX即可……

然而,Google没能马上做的事情,却有人一直在琢磨如何做好。

2014年,一种新的机器翻译方式被提出。它的名字叫做“神经网络机器翻译”(Neural machine translation)。这里有个示例网站。我把维基百科上面关于纽约的英文介绍输入进去,目标语言选的是法语。结果如下图所示。

有会法语的同学吗?受累看看翻译得怎么样? :-P

这种新的翻译方法一时备受推崇。其实它使用的原材料没有什么变化,依然主要是联合国和欧盟的文档。但是在如何利用这些材料上面,变化可就大了。

Google翻译简单粗暴,统计后看哪个选项更“顺眼”就使用。而这种新方法则不然,它使用了一种叫做循环神经网络(Recurrent Neural Networks, RNN)的模型来学习材料。为了不跑题,我强忍着不详细展开介绍它了。只提它的一个重要特点——有反馈

这里举RNN另外的一个应用例子,你就明白什么是反馈了。

有人构建了一个特别简单的RNN模型,你可以到github上面下载下来自己试着玩儿。

模型作者丢给了机器一本书(当然是电子版),海明威的《太阳照常升起》。跟机器说,学学吧,然后你也写篇文章。

附带说一句,海明威这本书总长362,239字,含有84种不同字符(包括标点符号、大写字母、小写字母等等)。机器本身没有任何对于语言(包括单词、语法等任何属性)的先验知识。换句话说,它啥都不懂

机器老老实实训练了100次,生成的结果是这个样子的。

hjCTCnhoofeoxelif edElobe negnk e iohehasenoldndAmdaI ayio pe e h’e btentmuhgehi bcgdltt. gey heho grpiahe. Ddelnss.eelaishaner” cot AAfhB ht ltny ehbih a”on bhnte ectrsnae abeahngy

(资料来源:http://t.cn/RGEnqbL)

这像人话吗?

不像。可你别忘了,机器最大的优点就是吃苦耐劳,100次不行咱们1000次,这回写出来的语句是这个样子的:

hing soor ither. And the caraos, and the crowebel for figttier and ale the room of me? Streat was not to him Bill-stook of the momansbed mig out ust on the bull, out here. I been soms inick stalling that aid. “Hon’t me and acrained on .Hw’s don’t you for the roed,” In’s pair.”

(资料来源:http://t.cn/RGEnqbL)

千万不要急着鄙视。如果你细心的话,可能会发现,一些单词出现了。而且请注意,这些单词不是从原书文本中摘出的,而是机器根据自己的训练结果独立拼出来的。

吃苦耐劳的机器再训练了几千次,写出来的东西就成了这个样子。

He went over to the gate of the café. It was like a country bed. “Do you know it’s been me.” “Damned us,” Bill said. “I was dangerous,” I said. “You were she did it and think I would a fine cape you,” I said.

(资料来源:http://t.cn/RGEnqbL)

我不说什么了。RNN这东西在反馈作用下的效果……自己琢磨吧。

回忆一下,你的中文是仅仅通过大量看文章学会的吗?是只听广播就学会了吗?不是,是在大量的输入处理后,又加上环境反馈,才学会的。

现在的教育理念,教导我们不能嘲笑孩子讲错话。这没错。但是后半句许多家长都忘了,你还得”正确地示范”。对孩子学语言来说,不管是示范、鼓励还是嘲弄,都是一种反馈。只是有的反馈方式副作用更小一些。

看过了机器翻译的发展进程,回忆一下你自己的英语学习经历,知道为什么英语学不好了吧?因为完全违背语言学习的规律。你通过不断练习获得的只是一个特殊的解题工具而已。

对于真心打算提高英语水平的同学,其实应该多跟你的英语老师谈谈心。再次强调一遍,我不是教英语的。我这里胡乱提几条建议,仅供参考:

  1. 起始阶段不要盲目求快。最好使用精心编排的、反复进行结构训练并且螺旋递进的优秀教材。这样你头脑中就可以及早构建正确的语言模型。过去几十年里,我所知道的教材里面最符合这一条的是这套(列表里面插图总是显示错误,请点开下面“阅读原文”看图片吧)。
  2. 大量摄入优质英文材料。扩展你的词汇量,验证你头脑中已构建起来的语言模型的有效性。激活相关概念的连接,把生词变成熟词,把被动休眠的词汇变成主动激活的词汇。
  3. 抓住一切机会寻求语言反馈。如果你生活在国外,太好了。多跟外国人聊。我见过一个中国交换生申请提前考试回国,问原因说是暑假报了班,要去新东方学英语,气得我差点儿揍他。如果你在国内,但是身边能遇到外国人,千万别怕说错话丢人,多跟他们聊天。如果不巧上面的条件你都不具备,那就上网加外国人好友,或者干脆在应用中付费找外国人当语言教练。这样的网站、应用有很多,我就不做广告了。不过友情提醒,使用前认真甄别。别忘了,英语也有个口音问题。 :-P

原文发布于微信公众号 - 玉树芝兰(nkwangshuyi)

原文发表时间:2016-08-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

迪士尼三截棍机器人,空翻只需两个自由度 | ICRA 2018

这一次,迪士尼发布的机器人朴素成了一根棍,可以折叠的三截棍,“Stickman (棒男) ”这个名字也通俗易懂。

12650
来自专栏量子位

奥巴马吐槽川普“笨蛋”的视频火了,这又得“归功”于AI

也就半天的工夫,这段视频在Twitter上有200多万次播放,1300多条评论,被转发了2万6000多次,还收获了5万多个赞。

15620
来自专栏Python中文社区

Python分析《羞羞的铁拳》电影观众评论

專 欄 ❈ 伟楠,Python中文社区专栏作者,数据分析师,知乎专栏:数据故事会。 https://www.zhihu.com/people/hao-wei-...

34370
来自专栏计算机视觉与深度学习基础

2014ACM-ICPC牡丹江赛区参赛总结

         回来之后就被没写的作业和入党的事情搞得一团糟(出门在外还是带两本书比较好),但还是抽空在下个赛区开赛之前把这篇参赛总结赶出来了。 据一开始的分...

19990
来自专栏机器人网

怎样撰写技术论文

---- 很多人都有写技术文档的经验,还有发表职称论文,如何写专业的论文?下面的文章会对你有帮助!!! 怎样撰写技术论文 1 技术论文 的一般格式和具...

29650
来自专栏大数据文摘

AI说人“画” | 说说我用神经网络找小哥哥的那些事儿……

16630
来自专栏数据的力量

如何学习统计学

13630
来自专栏量子位

用算法合成新药:一场新式卡斯帕罗夫与深蓝的巅峰对决

安妮 编译自 Nature 量子位 出品 | 公众号 QbitAI 一分子就是一世界。 对药物研发人员来说,确实这样。在这篇《Nature》的文章中,渥太华记者...

382100
来自专栏大数据文摘

大数据小说 | 如何用一小时看透一个初识的姑娘

23130
来自专栏量子位

遇劣势变蠢、发语音嘲讽人类……OpenAI这些奇葩DOTA操作跟谁学的?

两天前,AI全村的希望OpenAI Five更是在二连败之后,提前为TI之旅画上了句号。

15750

扫码关注云+社区

领取腾讯云代金券