反思机器学习与人类语言习得的关系

探索人类怎样习得自己的语言,在语言学及相邻领域一直都是非常吸引人的研究课题,被国内外研究者冠以“柏拉图问题”之称。从20世纪行为主义统领的心理学理论,到皮亚杰的认知发展理论、乔姆斯基的语言内在论,以及当前兴起的机器学习探索,对解答人类怎样习得语言这一问题各有不同的见解。这一差别使得语言学、心理学、语言哲学等领域中的相关研究走上不同的发展道路,也促使我们反思当前快速推进的机器学习研究对语言习得研究有何启示与教训。

强化学习以试错搜索和延迟奖励为特点

一般来说,根据学习过程中的不同侧重点,如怎样处理输入数据与算法,机器学习有不同分类。若以与语言习得密切相关的学习方式为基准,可分为监督学习、无监督学习以及强化学习。三者之中,强化学习与20世纪中期风靡于心理学和语言习得领域的行为主义密切相关,引起的关注更多。

强化学习的创立者之一理查德·萨顿认为,强化学习即学会怎样将环境与行为映射起来,以最大化奖励信号(强化信号)。根据可能获得的奖励期望,做出影响行为的决策。在与环境的交互过程中,学习者并不知晓应采取哪些行动,必须通过不断的尝试归纳出哪种行为可获得最大奖励。因此,试错搜索是强化学习的显著特点之一。因为掌握有用信息可以获得最大的奖励期望,做出有利的决策。此外,在特定情况下,某些行为不仅影响直接的奖励,而且影响下一环节以及由此产生的所有后续奖励,延迟奖励由此成为强化学习的另一突出特点。可见,就如人工智能研究专家戴密斯·哈萨比斯最近在《自然》杂志上阐释的那样,整个交互过程包括行为、奖励期望与决策三个步骤。

人类学习语言是一个演绎性过程

以行为主义为主导的语言学习理论认为,语言学习是学习者对外界刺激作出反应的结果。据此,语言环境和刺激强化对语言学习起着决定性的作用。这是因为,人脑能对外界语言刺激形成记忆,从而掌握语言。如上所述,强化学习的基本理念是使用奖励期待(类似刺激)强化正确的行为。此外,当奖励预测误差趋近于零时,强化学习达到最优状态。在此意义上,强化学习也可以说是通过试错,归纳得出最小化的预测误差。更引人注目的是,哈萨比斯等最近在《自然》杂志上尝试以强化学习算法阐释人脑学习过程时指出,人工智能视角下的分布式强化学习,似乎可以依靠多巴胺这类能够促进实现奖励预期的神经递质,在人脑中实现。简而言之,如果行为达到奖励预期,获得正向的多巴胺信号,则促成正确的学习决策。

然而,人类学习语言就如乔姆斯基语言习得理论主张的那样,是一个演绎性过程。学习者在学习语言结构时提出某种假说,然后依据原始语言数据输入进行假设检验,修正或证实有关目标语言结构的假说,完成语言习得。这一过程看似与强化学习中的试错归纳学习有类似之处,但它是对先前假说的验证过程,而非归纳学习过程。尤其对于儿童获得母语而言,类比归纳学习是否奏效一直受到质疑,而从内在语言机制生物性成熟的角度解释语言习得,则得到了更多神经生物以及经验研究的证实。

但这并没有具体说明儿童快速习得母语的具体过程。换句话说,语言本身作为一个非常复杂的自足系统,有关这一复杂系统的习得理论,必须严肃阐释儿童怎样快速、一致地获得诸如结构层级性之类的语言本体属性。虽然多巴胺此类神经递质在语言习得过程中的确促成相关神经实现,但这只是语言习得的神经生物基础的具体表现。更重要的问题是,怎样立足语言的神经生物基础妥当解答语言习得的具体过程。

再次,虽然强化学习亦有从心理学角度考察语言学习的过程,但人脑有限的计算加工能力是否能够像机器及其算法模型一样,具有超高的容量与超强的计算能力,是值得仔细斟酌的。从有关大脑的神经生物属性研究来看,人脑的认知计算加工能力远不及机器。因此,人类语言学习与基于算法的机器学习之间的区别一时难以消弭。

互学互鉴是可行的

探索语言习得过程涉及多学科的协同作用。这种学科之间的互促互鉴正是认知科学兴起的原因所在。强化学习对语言习得问题的解读,兼具计算机科学、神经科学以及心理学等学科交叉的特点。以乔姆斯基语言习得理论为基础的语言习得探究,则通过整合语言哲学、语言学、神经科学、生物学以及心理学等展开。可见,两者互学互鉴具有天然的可能性。

众所周知,强化学习需要大量的数据训练才能达成任务,而儿童快速、一致地获得语言似乎不需要大量语言训练,相反,面对的是刺激贫乏的事实。即使是成人习得母语之外的语言,除需要努力记忆词汇之外,也可以在没有大量训练的情况下掌握语法等。语言学习依靠的主要是内在语言机制。这就表明,在机器学习研究初期遭遇的质疑似乎仍未得到有效的解决:依靠大量算法训练的强化学习可能与人类学习语言有本质的区别。即使在当前算法技术快速发展的情况下,如情景记忆与元学习技术的开发,这种区别似乎并没有得到实质性的突破。如同某些机器学习研究者调侃的一样,使用模型学习人类语言,驱动学习的算法往往只学会做一个复读机。鉴于此,这两种性质不同的学习在当前人工智能技术的快速发展中,是可以互学互鉴,并共同促进对“柏拉图问题”的探讨。

首先,这两种理论都支持语言学习是基于神经生物基础实现的。尽管强化学习认同刺激—反应式的语言学习理念,但也接受语言学习依靠大脑神经生物属性实现这一共识。为获得理想的奖励期待,神经细胞释放多巴胺推进相应神经活动。这一过程说明学习的确具有神经生物基础,因而就与乔姆斯基语言习得理论重点挖掘大脑神经生物属性对语言习得的影响不谋而合。在当前最简方案生物语言学研究范式下,语言习得研究的核心就变为探讨怎样习得由大脑神经生物属性决定的基本语言属性。

虽然内在基本语言属性是语言习得展开的基础,但语言学习需要在实际环境中进行,因为语言系统的建构与熟练掌握需要语言加工运算将基本语言属性盘活、固化在相应大脑模块之中。因此,这一过程就与强化学习着力开发的算法相关。此类算法类似语言学习者依靠语言加工运算掌握语言结构,熟稔语言技能。可见,强化学习与主流语言习得理论的主要区别在于,是否预设语言学习需要某些由生物基因属性决定的既定基本语言属性。在语言加工上可以互学互鉴,甚至探索类似的算法,如上文提到的当前人工智能领域中出现的两种很有前景的技术——情景学习与元学习,尽管在具体算法实现上存在人脑与机器脑的差别。

总之,正如哈萨比斯等认为多巴胺能够激励奖励期望与促成学习决策一样,主流语言习得理论也一贯认为语言习得或语言本身具有坚实的神经生物基础。而且,强化学习在算法开发上的经验,有助于当前主流语言习得理论深入探究语言学习者在多大程度上通过熟稔语言计算加工来掌握语言。在此意义上,强化学习与主流语言习得研究范式是一个连续统,有着互鉴的可行性。这在一定程度上昭示着机器学习与主流语言习得理论各自未来的努力方向。

(作者单位:苏州大学外国语学院)

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20200303A09UHH00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券