自然语言处理之经验主义与理性主义

博文视点Broadview

发布于 2022-09-02 14:11:17

8350

发布于 2022-09-02 14:11:17

文章被收录于专栏：博文视点Broadview

👆点击“博文视点Broadview”，获取更多书讯

“研究范式”是由哲学家Thomas S. Kuhn 在1962 年《科学革命的结构》一书中首先提出的。

Kuhn 认为，科学进步并不是累积式发展的，他提出一种新的发展模型，在该模型中，科学连续性的累积发展（Kuhn 将其定义为“正常科学”时期）会被“革命科学”打断，革命科学发现的“异常”（即显著不同于正常科学时期的思想、方法等）会直接导致新的范式。

Kuhn 因此将研究范式定义为学科内“科学家关于应该如何理解和解决问题的一套共同的信念与共识”。

Lincoln 和Guba认为一个研究范式包括四个部分：本体论（Ontol-ogy）、认识论（Epistemology）、方法论（Methodology）和价值论（Axiology）。

本体论主要是学术共同体关于学科内事物、现实和存在等本质的理解与假设；认识论涉及我们如何知道事物、事实或现实，即知识；方法论即研究所采用的方法、过程、工具和实验设计等；价值论是指与研究相关的伦理问题。

下表从以上4 个维度对比了自然语言处理研究中的经验主义范式与理性主义范式。

乔姆斯基是理性主义的代表性人物，他的普遍语法理论认为人脑天生具有语法知识，关键的支持证据是“刺激的贫乏性”，即儿童在接受有限的语言刺激条件下仍然可以学会复杂的语法系统。

经验主义认为大脑并没有先验语言知识，知识来源于经验，因此自然语言处理模型需要从数据中学习知识，而不是依赖于语言学家手动编写的语言规则。

在自然语言处理过去几十年的发展历史中，我们可以看到经验主义和理性主义研究范式交替出现，Kenneth Church 认为，自然语言处理研究是在：

“经验主义与理性主义之间振荡，像钟摆一样，每隔二十多年来回振荡一次：
20 世纪50 年代：经验主义（香农、斯金纳、弗斯和哈里斯等）；
20 世纪70 年代：理性主义（乔姆斯基、明斯基等）；
20 世纪90 年代：经验主义（IBM 语音团队、AT & T 贝尔实验室）；
21 世纪初：回归到理性主义了吗？”

虽然深度学习方法将经验主义钟摆推得更远（目前仍然没有回归理性主义），但是大多数研究人员认为自然语言处理的发展需要理性主义与经验主义共同推进，尤其需要语言学理论、语言学知识支撑。

认知语言学与自然语言理解。虽然深度学习驱动的自然语言处理技术在很多任务上，如机器阅读理解、自然语言推理、情感识别等，逼近甚至超过人类水平，但深度学习模型仍然没有真正“理解”自然语言文本，自然语言理解仍然是未解的难题，并且是自然语言处理最主要的挑战之一。未来，认知语言学可能为自然语言理解提供新的洞见和解决方案，如具身认知语言学（Embodied Cognitive Linguistics）。
语言类型学与多语言自然语言处理。自然语言处理研究通常涵盖三个维度：任务维度，即不同自然语言处理任务，如词法分析、句法分析、共指消解、摘要和问答等；领域维度，即模型训练数据所处的不同领域，如新闻、小说和社交媒体等；语言维度，即任务和领域所依托的语言，如富资源语言、低资源语言等。

不同语言在发音、词汇、语法和语篇结构等多个层面上常常存在显著差异，多语言自然语言处理便是在语言维度上应对语言差异性、多样性给自然语言处理带来的挑战，将自然语言处理研究延展到三维空间，使自然语言处理研究内涵更加丰富，应用更加广泛。

近10 年来，自然语言处理一个很重要的趋势是多语言自然语言处理的研究和应用正在不断加强，从早期主要以英语为研究对象，2010 年左右扩展到20 种左右资源丰富的语言（如汉语、法语、德语和日语等），再到最近几年向40+、100+ 种语言发展。

语言类型学（Linguistic Typology）正是对不同语言、语系在词汇、语法、语序等方面的共性和差异性进行定性和定量研究的语言学分支，因此，与多语言自然语言处理具有天然的契合性。

语言哲学与意义。根据维基百科，语言哲学（Philosophy of Language）研究语言的本质，研究语言、语言使用者、世界三者之间的关系，系统性探讨意义、意图、提及的本质。这些问题显然也是自然语言处理不可回避的问题，尤其是意义，语言哲学的相关研究成果和思路，是否可应用于自然语言处理？或启发新的自然语言处理研究思路？
发展语言学与语言建模。发展语言学（Developmental Linguistics）研究人类的第一语言和第二语言习得问题，尤其是孩童时代的第一语言习得。探视人类语言习得过程、语言对人脑神经网络的影响，有可能帮助机器构建类人语言学习模型。
高阶语言学理论与语篇语用建模。自然语言处理经过几十年的发展，在低阶语言层次的处理上，如词法分析、句法分析等，得到了长足发展；但在高阶层次处理上，如语义、语篇、对话和语用等层次的自动分析与建模，仍然存在诸多挑战和开放问题，且性能有待进一步提高。在低阶层次处理上，我们看到大量语言学理论得到广泛应用，如各种语法理论、语法框架等。但在高阶语言层次上，相应的语言学理论，使用相比较少，且以这些语言学理论为支撑构建的语言资源也相对较少。以上简要列举了语言学或者与语言学交叉的学科的相关知识和理论可能对自然语言处理的启示作用，除直接使用这些语言学及相关学科的理论、框架之外，它们的方法论、思想体系等也值得借鉴，以启发自然语言处理研究开展自顶向下模式的反思及确认总体方向是否正确。

以上内容来自《神经机器翻译：基础、原理、实践与进阶》（熊德意，李良友，张檬著）一书，欢迎阅读此书了解更多相关内容！

限时下单立减100，快快扫码抢购吧！

发布：刘恩惠

审核：陈歆懿

如果喜欢本文欢迎 在看丨留言丨分享至朋友圈 三连
 热文推荐  
前端工程化思维：主题切换架构
新浪微博从 Kafka 到 Pulsar 的演变
入门机器学习？还是先抢救一下数学吧！
什么是语法糖，如何解糖？

▼点击阅读原文，了解本书详情~

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2022-08-31，如有侵权请联系 cloudcommunity@tencent.com 删除

NLP 服务

深度学习

本文分享自博文视点Broadview 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

NLP 服务

深度学习

登录后参与评论

0 条评论

热度

自然语言处理之经验主义与理性主义

自然语言处理之经验主义与理性主义

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐