浅浅谈人类儿童是如何学习自然语言的

跟大家简单简单又简单的讨论一下人类儿童是如何学习自然语言的,以及这些研究进展是否影响Natural Language Processing(NLP)和deep learning。这些只是基于我知道的那点儿东西,不能保证全面。

Chomsky觉得,婴儿来到这个世界上,从半个词不会,到掌握这么复杂精妙的语言,简直是太amazing了。不太可能都是后天学习的,一定是大脑里带着“某种蓝图”。

但他说的“蓝图”,或者说“先天语法”(innate grammar)或者说“统一语法”(universal grammar)。它并不是我们通常认为的“语法”,而是一种learning bias,婴儿从娘胎里带来的,能用来更快学习自然语言的偏见

有一些描述统计语言学能给出一些支持Chomsky的证据。举个例子,人类有很多种语言是SVO句法(就是说一句简单句,先说主语Subject,再说谓语Verb,再说宾语Object)。

汉语就是这种句法,所以咱们说话就是“她爱着他”“我想吃饭”。

也有语言是SOV句法,所以这种语言说同样的话就是“她他爱着”“我饭想吃”,韩语就是这样。

但几乎没有语言(低于1%)是OSV句法(“饭我想吃”)。

还有,绝大多数语言在用量词和形容词修饰名词的时候(比如“两根黄色的香蕉”),量词和形容词都在名词的一边,而且量词靠前。几乎没有语言(低于4%)是说“黄色的香蕉两根”这种语法。

人类语言似乎有些语法规律,更遵循大脑的学习规律。

但素,不论是多么奇葩的语法,多么稀少,它也还是存在的。比如说Riau Indonesian就说一种既没有名词语言也没有动词的语言。虽然听上去很奇葩,但这确实存在(参见:http://www.economist.com/node/2329718)。

另外我们上面说的“黄色的香蕉两根”“饭我想吃”这种语法也是在极少数语言中存在的。

这似乎证明了,虽然人类似乎有很强的定义语言和语法的偏见,绝大多数语言的语法遵循一定模式,但人类可以学习任何语法,并不一定有一个蓝图

这些偏见,从机器学习角度看,可以认为是先验概率(prior)。实际上关于人类学习语言是学习语法,还是学习一种统计规律,一直有争论。从铁的证据看,语音中的词语切分,肯定是用统计规律来学习的。

另外成人给儿童的输入(input)也是有标注的。学术上叫infant-directed speech(对婴儿说的语言),与其对应的是adult-directed speech和pet-directed speech。 这三种在声学上有极大的不同。简单说,我们和婴儿说话方式,跟对成人说话的方式比,充满了感情和各种语调上的夸张(对宠物只有感情音调的夸张),这些夸张实际上是一种“标注”,让她更快学习词语,也告诉她注意哪个方面。从机器学习角度说,infant-directed speech,是一种semi-supervised learning(半监督学习)。

也有学者认为成人学习外语往往达不到儿童的水平,可能不是因为大脑的限制,而是因为得不到infant-directed speech这么高质量的input。这点从机器学习方向看就是,成年人学不好外语,可能不是因为你的算法不够灵活,而是因为你的数据的信噪比就没有儿童得到的高。

从这些证据看,人似乎完全可以从语言的碎片单位进行统计性学习。但实际儿童发育的行为学证据又证明,孩子们确实掌握了一些“语法”,因为他们似乎在对规律进行过度泛化(over-generalization)

比如他们学会了过去式要加‘-ed’,那么就会什么词都加 “-ed”, 说出‘I goed park yesterday” 这种话来。这证明孩子是在学习一些规律。

因此从目前证据看,基本可以否定人类有统一的语法。但不能否认大脑有一些偏见(learning bias)。那么这些bias是从哪里来的呢?有一些证据显示,是从脑的计算极限和计算设置来的。比如对于听觉皮层来说,有两个计算的时间窗(processing window,由神经元集成和蛋白通道放电时间决定的),这些最佳时间窗也就限制了人类语言的语素(syllable)和短语的长短。另外大脑也有一定的working memory(工作记忆)。Working memory有点像电脑的RAM,只hold住当前要处理的任务对象。因此不能hold住太多东西,否则处理时间就太长。因此人类的一句话的长短限制也由此产生(德语句子太长,于是语言障碍儿童比例较高)。

综上所说,人类语言也许没有统一的语法(universal grammar),但是却有统一的限制(universal constraint)。这些限制是由大脑的计算极限和计算方式带来的,也产生了一些bias。这些是人类学习的先验概率(prior)。

在学习的过程中,由于得到了妈妈(或其他成人)不断的耐心的用语音语调的强化和标注(infant-directed speech)把这些bias进行了统计学上的加强。大脑逐渐的从这些统计学加强中寻找到了“规律”,因此在发育的一些阶段,对这些规律进行了过度泛化,产生了很多错误。最后的阶段,这些错误被逐渐学习越来越多的“例外”和更加丰富的语法和语言材料所修正(也就是机器学习中的fine-tuning)。

这些,就说目前人类如何学习自然语言的故事。因此可见以上这些过程,都是可以被NLP和deep learning的模型所仿真的。而仿真学习过程,也是重要的研究手段之一。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180221G09D4A00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券