浅浅谈人类儿童是如何学习自然语言的

文章来源：企鹅号

跟大家简单简单又简单的讨论一下人类儿童是如何学习自然语言的，以及这些研究进展是否影响Natural Language Processing（NLP）和deep learning。这些只是基于我知道的那点儿东西，不能保证全面。

Chomsky觉得，婴儿来到这个世界上，从半个词不会，到掌握这么复杂精妙的语言，简直是太amazing了。不太可能都是后天学习的，一定是大脑里带着“某种蓝图”。

但他说的“蓝图”，或者说“先天语法”（innate grammar）或者说“统一语法”（universal grammar）。它并不是我们通常认为的“语法”，而是一种learning bias，婴儿从娘胎里带来的，能用来更快学习自然语言的偏见。

有一些描述统计语言学能给出一些支持Chomsky的证据。举个例子，人类有很多种语言是SVO句法（就是说一句简单句，先说主语Subject，再说谓语Verb，再说宾语Object）。

汉语就是这种句法，所以咱们说话就是“她爱着他”“我想吃饭”。

也有语言是SOV句法，所以这种语言说同样的话就是“她他爱着”“我饭想吃”，韩语就是这样。

但几乎没有语言（低于1%）是OSV句法（“饭我想吃”）。

还有，绝大多数语言在用量词和形容词修饰名词的时候（比如“两根黄色的香蕉”），量词和形容词都在名词的一边，而且量词靠前。几乎没有语言（低于4%）是说“黄色的香蕉两根”这种语法。

人类语言似乎有些语法规律，更遵循大脑的学习规律。

但素，不论是多么奇葩的语法，多么稀少，它也还是存在的。比如说Riau Indonesian就说一种既没有名词语言也没有动词的语言。虽然听上去很奇葩，但这确实存在（参见：http://www.economist.com/node/2329718）。

另外我们上面说的“黄色的香蕉两根”“饭我想吃”这种语法也是在极少数语言中存在的。

这似乎证明了，虽然人类似乎有很强的定义语言和语法的偏见，绝大多数语言的语法遵循一定模式，但人类可以学习任何语法，并不一定有一个蓝图。

这些偏见，从机器学习角度看，可以认为是先验概率（prior）。实际上关于人类学习语言是学习语法，还是学习一种统计规律，一直有争论。从铁的证据看，语音中的词语切分，肯定是用统计规律来学习的。

另外成人给儿童的输入（input）也是有标注的。学术上叫infant-directed speech（对婴儿说的语言），与其对应的是adult-directed speech和pet-directed speech。这三种在声学上有极大的不同。简单说，我们和婴儿说话方式，跟对成人说话的方式比，充满了感情和各种语调上的夸张（对宠物只有感情音调的夸张），这些夸张实际上是一种“标注”，让她更快学习词语，也告诉她注意哪个方面。从机器学习角度说，infant-directed speech，是一种semi-supervised learning（半监督学习）。

也有学者认为成人学习外语往往达不到儿童的水平，可能不是因为大脑的限制，而是因为得不到infant-directed speech这么高质量的input。这点从机器学习方向看就是，成年人学不好外语，可能不是因为你的算法不够灵活，而是因为你的数据的信噪比就没有儿童得到的高。

从这些证据看，人似乎完全可以从语言的碎片单位进行统计性学习。但实际儿童发育的行为学证据又证明，孩子们确实掌握了一些“语法”，因为他们似乎在对规律进行过度泛化（over-generalization）。

比如他们学会了过去式要加‘-ed’，那么就会什么词都加 “-ed”，说出‘I goed park yesterday” 这种话来。这证明孩子是在学习一些规律。

因此从目前证据看，基本可以否定人类有统一的语法。但不能否认大脑有一些偏见（learning bias）。那么这些bias是从哪里来的呢？有一些证据显示，是从脑的计算极限和计算设置来的。比如对于听觉皮层来说，有两个计算的时间窗（processing window，由神经元集成和蛋白通道放电时间决定的），这些最佳时间窗也就限制了人类语言的语素(syllable)和短语的长短。另外大脑也有一定的working memory（工作记忆）。Working memory有点像电脑的RAM，只hold住当前要处理的任务对象。因此不能hold住太多东西，否则处理时间就太长。因此人类的一句话的长短限制也由此产生（德语句子太长，于是语言障碍儿童比例较高）。

综上所说，人类语言也许没有统一的语法（universal grammar），但是却有统一的限制（universal constraint）。这些限制是由大脑的计算极限和计算方式带来的，也产生了一些bias。这些是人类学习的先验概率（prior）。

在学习的过程中，由于得到了妈妈（或其他成人）不断的耐心的用语音语调的强化和标注（infant-directed speech）把这些bias进行了统计学上的加强。大脑逐渐的从这些统计学加强中寻找到了“规律”，因此在发育的一些阶段，对这些规律进行了过度泛化，产生了很多错误。最后的阶段，这些错误被逐渐学习越来越多的“例外”和更加丰富的语法和语言材料所修正（也就是机器学习中的fine-tuning）。

这些，就说目前人类如何学习自然语言的故事。因此可见以上这些过程，都是可以被NLP和deep learning的模型所仿真的。而仿真学习过程，也是重要的研究手段之一。

发表于: 2018-02-212018-02-21 11:37:10
原文链接：http://kuaibao.qq.com/s/20180221G09D4A00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

浅浅谈人类儿童是如何学习自然语言的

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐