文章/答案/技术大牛

发布

张释文：从人工智能看我们今天如何学习语文

文章来源：企鹅号 - 埃尔特订阅号

昨天，埃尔特的办公室里发生了激烈的争吵，导火索是人称“大陆版赵又廷”的设计老师突然开始学英语了，于是问公司的几位同事，怎样才是最科学的英语学习方式。埃尔特立刻分成了两派——以多年海外生活经验的海归为代表的“囫囵吞枣派”和以英语八级的国内学霸为代表的“稳扎稳打派”。

囫囵吞枣派主张

读

大量的阅读，先从简单的绘本开始，遇到不会的单词不用着急查字典，尽量猜。多阅读，先和英语混个“脸熟”，把语感培养起来。

背

稳扎稳打派主张

先背单词，词汇量是王道，基础不打好，以后走不远。

囫囵吞枣派反驳

读

你们学中文难道都是先背字典的吗？谁不是从看小人书、连环画开始的，上来就背单词绝对是反人类的。

背

稳扎稳打派反驳

字都不认识怎么看书，句读之不知惑之不解，不把词、句吃透，未来就是个半吊子。

我也加入了争吵，晚上回想这件事，突然发现，我们学习一门语言，其实是可以借鉴机器学习的经验和教训的，在人工智能时代，我们为什么不看看机器是怎么学习的呢？

其实自从1946年第一台现代电子计算机问世以来，“能不能让机器学会人类语言”就一直是一个非常受关注的话题。

世界第一台计算机问世

1956年的夏天，信息论的创立者香农博士，与其他九名年轻的科学家，在达特茅斯学院开了一个头脑风暴式的研讨会，他们称为“达特茅斯夏季人工智能研究会”，在会上，大家讨论了当时计算机领域尚未解决的几个重大议题，包括人工智能、神经网络等等，人工智能这个词就是在这次会议上提出来的，所以1956年也被称为是“人工智能元年”。而这个会议上提出的另一个重要议题就是：如何让机器学习人类的语言。

从此，机器对自然语言的学习，就变成了计算机科学领域一个重要的课题。

最初，科学家认为机器学习自然语言，应该遵循人类学习语言的方式，那就是要学习语法、了解语义。

但是这两点其实都很难做到，比如分析语法，其实是一件很复杂的事情，一个很简单句子，如果我们把文法分析画出图示来的话，就会发现是一个复杂的二维树（Parse Tree）结构，我们要分析什么是主语什么是谓语什么是宾语，还要研究其中包含的各种状语从句、名词短语等细微的结构，在这个结构之下，还要分析名词动词形容词……哪怕只有几个字的短句子，也会画出一个复杂的文法分析树，并且标注十数条文法规则。

有人做过统计，要想通过文法规则覆盖哪怕20%的真实语句，文法规则的数量也至少是几万条，这里还不包括词性标注的规则。如果要想覆盖50%以上的句子，文法规则的数量最后会多到每增加一个新句子，就要加入一些新的语法。

其实不仅仅机器学习自然语言，人类学习外语也面临同样的问题：多少大学毕业生，在学习了十多年的英语之后，也看不懂没有字幕的美剧。原因就是我们学习再多的语法，也不能涵盖全部的英语。无论是人脑还是计算机，用这种方式学习，完成这么大的计算量，都是不现实的。

而在学习语义方面则更为复杂，自然语言中，词的多义性很难用规则来描述，甚至不止依赖上下文。比如人工智能专家明斯基就举过一个著名的例子：the pen is in the box，和the box is in the pen。第一句话很好理解，笔在盒子里。而第二句话就稍难一些了，要理解这句话，必须知道pen在英文里还有围栏的意思。这个语义已经不是通过联系上下文能够解决的了，而是要具备一定的通识。

另外，任何语言都有语法规则覆盖不到的地方，这些例外我们经常会视为”病句“，但是有的病句也让我们的语言更为丰富多彩。机器学习的专家吴军老师举过一个例子：莎士比亚的作品里包括大量违反古语法的名句，在他那个时代的人看来就是“病句”，而且那个时代就开始有人试图“净化”莎士比亚的戏剧，可今天这些“病句”非但没有消失，反而成了经典，而试图“净化”的人却早已消失在历史的长河中。

从上个世纪六、七十年代一直到九十年代，机器学习自然语言遵循着分析语法、获取语义的原则—这种我们认为人类学习语言的最佳方式，结果足足三十年的时间，机器学习没有丝毫进展。相信和我一样年纪的人，都用过类似“东方快车”这样的翻译软件，那些驴唇不对马嘴的翻译曾经让我们非常抓狂，而它遵循的就是我上面提到的学习方式。

到了九十年代，机器学习自然语言，从基于规则的学习方法转换到了基于统计的学习方法，也就是用数学的方法学习语言规律，从此，机器学习自然语言得到了飞速的发展。

这种方式其实说白了非常简单：一个句子是否合理，就看他出现的概率有多大。当我们给了机器足够充分的“机读语料”，再辅以条件概率公式，我们就可以在已知第一个词的前提下，计算出第二个词出现的概率。只要有足够多的观测值，根据大数定理的支持，我们就可以预测概率。

换句话说，无论宣称多么智能的机器，它在识别或者翻译人类的一句话时，压根就不知道这句话是什么意思，在它的眼里，这句话只是以这种方式出现更为合理、概率更高而已。比如那个会写诗的微软小冰，当它写下“雨过海风一阵阵”的时候，它并不知道海风一阵阵是什么意思，也不知道下雨是什么感觉，只是在它的数据库里，这几个字拼在一起，被视为是好诗的概率更高，仅此而已。我去年看小冰的新闻，有很多诗人对小冰的诗不屑一顾，说只不过是一些“文字游戏”而已。其实，小冰玩的哪里是“文字游戏”，明明是“数学游戏”啊。

当然，对机器来说，让语言学习的整个训练模型平滑，还需要很多巧妙的算法，比如隐含马尔可夫链、卡茨退避法等等等等，但其核心依然是条件概率加上语料搜索。

对照人工智能来看我们的语言学习，其实有相通之处。比如，对机器来说，机读语料是非常重要的，机读语料组成了判断概率的基础。举个好玩的例子，腾讯公司的机器学习技术，在原则上和算法上都没有大问题，但是在初期的实际应用中却几乎完全无法使用，原因就是腾讯的开发部门给机器的语言模型，最早是将《人民日报》作为语料的，因为腾讯的程序员兄弟认为《人民日报》是最干净、最地道的中文文献（原谅程序员的呆萌）。而现实生活中，如果评价一个人说话跟人民日报似的，那基本就属于一句脏话了吧，很可能引发类似斗殴之类的体育活动。

这就像我们人一样，我们阅读什么样的书籍，接触什么样的文字，在很大程度上决定了我们的谈吐和学养。所以很多老师主张将“语文课”改成“阅读课”，学生在语文上遇到的问题，诸如表达能力、写作能力等，几乎都是可以通过高质量的阅读来解决的。

对比机器学习，我们似乎可以反思，那种一条条分析语法、背诵语义、归纳中心思想的学习方式，是低效的、刻板的、不经济的，也是连机器都无法穷尽而被抛弃的。

而那种背诵好词好句、规律匹配的学习方法，也许适合机器，但并不适合人，我在《阿尔法狗来了，机器猫还会远吗》那篇文章里说过，我们需要担心的不是机器开始像人一样思考，更应该担心的是人变得像机器一样思考。但是我们的教育方式，很多时候就像费曼在《透视巴西教育》里说的：

费曼（1918-1988）

“

学生可以把什么都背得很熟，但完全不理解自己在背些什么，当我向他们提问时，我就好像在向一台电脑提问，而刚好敲对了关键字眼而已。他们的书本知识和真实的世界是隔绝的！

”

这是一种把人当机器的训练方式，而不是教育。

我想象中的语文课，是像2016年全人奖得主樊阳老师的“人文行走”那样，是像傅国涌老师的“与世界对话”那样，站在大语文的视角上，以全盘规划的方式为学生的语文发展搭桥铺路，就像傅国涌老师所说：“读万卷书，行万里路，将纸上的阅读与地上的行走结合起来，将阅读与写作结合起来，在读书的同时，也展开辩论和言说的训练。这是大语文的教育思路，也可以说跨出了语文的范围，涵盖了文史哲甚至更广阔的领域。”

好的语文，就是提升孩子与世界对话的能力，感受这个世界的美，表达这个世界的美。

新春伊始，万物复苏。埃尔特教育特邀著名学者傅国涌老师，为同学们带来了全新系列课↓↓↓

点击“阅读原文”，带上孩子听傅老师讲春天里的秘密。

发表于: 2018-03-222018-03-22 21:05:14
原文链接：http://kuaibao.qq.com/s/20180322B1NQOY00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

张释文：从人工智能看我们今天如何学习语文

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐