经过60余年的发展,人们已经研发了各种各样自然语言处理技术,这些纷繁复杂的技术本质上都是在试图回答一个问题:语义在计算机内部是如何表示的?
根据表示方法的不同,自然语言处理技术共经历了四次范式变迁,分别是小规模专家知识、大规模语料库统计模型、大规模语料库深度学习和大规模预训练语言模型。
特别是在2010 年之后,随着基于深度神经网络的表示学习方法的兴起,该方法直接端到端地学习各种自然语言处理任务,不再依赖人工设计的特征。深度学习可以有效地避免统计学习方法中的人工特征提取操作,自动地发现对于目标任务有效的表示。
虽然深度学习技术大幅提高了自然语言处理系统的准确率,但是基于深度学习的算法有一个致命的缺点,就是过度依赖于大规模有标注数据。
由于自然语言处理这一认知类任务所具有的“主观性”特点,以及其所面对的任务和领域众多,使得标注大规模语料库的时间过长,人力成本过于高昂,因此自然语言处理的标注数据往往不够充足,很难满足深度学习模型训练的需要。
早期的静态词向量预训练模型,以及后来的动态词向量预训练模型,特别是2018 年以来,以 BERT、GPT 为代表的超大规模预训练语言模型恰好弥补了自然语言处理标注数据不足的缺点,帮助自然语言处理取得了一系列的突破。
所以,这种预训练 + 精调的模式,已经成为了自然语言处理的新范式。
所谓模型预训练(Pre-train),即首先在一个原任务上预先训练一个初始模型,然后在下游任务(也称目标任务)上继续对该模型进行精调(Fine-tune),从而达到提高下游任务准确率的目的。
为了能够刻画大规模数据中复杂的语言现象,还要求所使用的深度学习模型容量足够大。基于自注意力的 Transformer 模型显著地提升了对于自然语言的建模能力,是近年来具有里程碑意义的进展之一。
可以说,超大规模预训练语言模型完全依赖“蛮力”,在大数据、大模型和大算力的加持下,使自然语言处理取得了长足的进步。
那么,预训练模型是如何获得如此强大威力甚至是“魔力”的呢?
最近,车万翔老师等所著的《自然语言处理:基于预训练模型的方法》一书从预训练模型的角度对这两次重要的发展进行了系统性的论述,能够帮助读者深入理解这些技术背后的原理、相互之间的联系以及潜在的局限性,对于当前学术界和工业界的相关研究与应用都具有重要的价值。
8月19日,博文视点特地邀请到车万翔老师带来本书的详细解读。
分享主题:自然语言处理新范式:基于预训练的方法
讲师介绍:车万翔博士,哈尔滨工业大学计算学部长聘教授、博士生导师,社会计算与信息检索研究中心副主任。教育部青年长江学者,黑龙江省“龙江学者”青年学者,斯坦福大学访问学者。现任中国中文信息学会计算语言学专业委员会副主任兼秘书长;国际计算语言学学会亚太分会(AACL)执委兼秘书长;中国计算机学会高级会员。在ACL、EMNLP、AAAI、IJCAI等国内外高水平期刊和会议上发表学术论文50余篇,其中AAAI 2013年的文章获得了最佳论文提名奖,论文累计被引用4,600余次(Google Scholar数据),H-index值为37。
分享概要:近年来以BERT、GPT为代表的、基于超大规模生语料库的预训练语言模型异军突起,充分利用大模型、大数据和大计算,使几乎所有自然语言处理任务性能都得到了显著提升,在若干公开数据集上宣称达到或超过了人类水平,成为了自然语言处理的新范式。本次分享首先介绍预训练模型的演化过程,接着介绍预训练模型的最新研究进展,最后对自然语言处理领域今后的发展趋势进行展望。
分享时间:8月19日19:00-20:30
直播间地址:https://jmq.h5.xeknow.com/s/3P3PlM(扫描下方二维码进群获取或点击阅读原文直达)
直播提问,参与抽书
在本次直播过程中,我们将从所有在直播间评论区提问的小伙伴中随机抽出10位送出《自然语言处理:基于预训练模型的方法》。
本书内容分为三部分:基础知识、预训练词向量和预训练模型。
第1部分:基础知识。包括第2~4 章,主要介绍自然语言处理和深度学习的基础知识、基本工具集和常用数据集。
第2部分:预训练词向量。包括第5、6 章,主要介绍静态词向量和动态词向量两种词向量的预训练方法及应用。
第3部分:预训练模型。包括第7~9 章,首先介绍几种典型的预训练语言模型及应用,其次介绍目前预训练语言模型的最新进展及融入更多模态的预训练模型。
五折专享优惠
扫码扫码抢购吧!
如果喜欢本文欢迎 在看丨留言丨分享至朋友圈 三连
热文推荐
Spring数据库事务典型错误用法剖析
当知识图谱遇上预训练语言模型
书单 | 近期重磅新书,带你牛,带你富!
免费报名丨RLChina 2021 强化学习暑期课
▼点击阅读原文,直达直播间~