👆点击“博文视点Broadview”,获取更多书讯
“研究范式”是由哲学家Thomas S. Kuhn 在1962 年《科学革命的结构》 一书中首先提出的。
Kuhn 认为,科学进步并不是累积式发展的,他提出一种新的发展模型,在该模型中,科学连续性的累积发展(Kuhn 将其定义为“正常科学”时期)会被“革命科学”打断,革命科学发现的“异常”(即显著不同于正常科学时期的思想、方法等)会直接导致新的范式。
Kuhn 因此将研究范式定义为学科内“科学家关于应该如何理解和解决问题的一套共同的信念与共识”。
Lincoln 和Guba认为一个研究范式包括四个部分:本体论(Ontol-ogy)、认识论(Epistemology)、方法论(Methodology)和价值论(Axiology)。
本体论主要是学术共同体关于学科内事物、现实和存在等本质的理解与假设;认识论涉及我们如何知道事物、事实或现实,即知识;方法论即研究所采用的方法、过程、工具和实验设计等;价值论是指与研究相关的伦理问题。
下表从以上4 个维度对比了自然语言处理研究中的经验主义范式与理性主义范式。
乔姆斯基是理性主义的代表性人物,他的普遍语法理论认为人脑天生具有语法知识,关键的支持证据是“刺激的贫乏性”,即儿童在接受有限的语言刺激条件下仍然可以学会复杂的语法系统。
经验主义认为大脑并没有先验语言知识,知识来源于经验,因此自然语言处理模型需要从数据中学习知识,而不是依赖于语言学家手动编写的语言规则。
在自然语言处理过去几十年的发展历史中,我们可以看到经验主义和理性主义研究范式交替出现,Kenneth Church 认为,自然语言处理研究是在:
虽然深度学习方法将经验主义钟摆推得更远(目前仍然没有回归理性主义),但是大多数研究人员认为自然语言处理的发展需要理性主义与经验主义共同推进,尤其需要语言学理论、语言学知识支撑。
不同语言在发音、词汇、语法和语篇结构等多个层面上常常存在显著差异,多语言自然语言处理便是在语言维度上应对语言差异性、多样性给自然语言处理带来的挑战,将自然语言处理研究延展到三维空间,使自然语言处理研究内涵更加丰富,应用更加广泛。
近10 年来,自然语言处理一个很重要的趋势是多语言自然语言处理的研究和应用正在不断加强,从早期主要以英语为研究对象,2010 年左右扩展到20 种左右资源丰富的语言(如汉语、法语、德语和日语等),再到最近几年向40+、100+ 种语言发展。
语言类型学(Linguistic Typology)正是对不同语言、语系在词汇、语法、语序等方面的共性和差异性进行定性和定量研究的语言学分支,因此,与多语言自然语言处理具有天然的契合性。
以上内容来自《神经机器翻译:基础、原理、实践与进阶》(熊德意,李良友,张檬 著)一书,欢迎阅读此书了解更多相关内容!
限时下单立减100,快快扫码抢购吧!
发布:刘恩惠
审核:陈歆懿
如果喜欢本文欢迎 在看丨留言丨分享至朋友圈 三连
热文推荐
前端工程化思维:主题切换架构
新浪微博从 Kafka 到 Pulsar 的演变
入门机器学习?还是先抢救一下数学吧!
什么是语法糖,如何解糖?
▼点击阅读原文,了解本书详情~
本文分享自 博文视点Broadview 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!