前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >【GPT】开源 | 清华大学提出对新数据进行高效持续预训练的模型ELLE

【GPT】开源 | 清华大学提出对新数据进行高效持续预训练的模型ELLE

作者头像
CNNer
发布于 2023-02-28 02:53:44
发布于 2023-02-28 02:53:44
5520
举报
文章被收录于专栏:CNNerCNNer

论文地址: http://arxiv.org/pdf/2203.06311v2.pdf

来源: 清华大学

论文名称:ELLE: Efficient Lifelong Pre-training for Emerging Data

原文作者:Yujia Qin

内容提要

现有的预训练语言模型(PLM)通常使用固定的、不更新的数据进行训练,而忽略了在现实场景中,各种来源的数据可能会不断增长,而这需要PLM能够持续地整合新旧信息。虽然这个目标可以通过对所有新老数据重新大规模训练来实现,但众所周知,这样的过程在计算上是十分昂贵的。为此,本文提出了ELLE,旨在对新来的数据进行高效的持续预训练。具体来说,ELLE包括(1)功能维持的模型扩展,它能够灵活地扩展现有PLM的宽度和深度,以提高知识获取的效率;(2)预植领域提示词(prompt),从而让模型能够更好地区分预训练期间学到的通用知识,正确地激发下游任务的知识。我们在BERT和GPT上使用来自5个领域的数据来试验,结果表明ELLE在预训练效率和下游性能方面优于各种传统的持续学习方法。

主要框架及实验结果

声明:文章来自于网络,仅用于学习分享,版权归原作者所有。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-02-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CNNer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
今年英语高考,CMU用重构预训练交出134高分,大幅超越GPT3
机器之心报道 机器之心编辑部 本文提出的重构预训练(reStructured Pre-training,RST),不仅在各种 NLP 任务上表现亮眼,在高考英语上,也交出了一份满意的成绩。 我们存储数据的方式正在发生变化,从生物神经网络到人工神经网络,其实最常见的情况是使用大脑来存储数据。随着当今可用数据的不断增长,人们寻求用不同的外部设备存储数据,如硬盘驱动器或云存储。随着深度学习技术的兴起,另一种有前景的存储技术已经出现,它使用人工神经网络来存储数据中的信息。 研究者认为,数据存储的最终目标是更好地服务
机器之心
2022/06/24
2800
今年英语高考,CMU用重构预训练交出134高分,大幅超越GPT3
【论文笔记】当Bert炼丹不是玄学而是哲学:Mengzi模型
论文标题:Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese 论文链接:https://arxiv.org/pdf/2110.06696.pdf 论文代码:https://github.com/Langboat/Mengzi 论文作者:{Zhuosheng Zhang etc.}
致Great
2022/01/06
7680
【论文笔记】当Bert炼丹不是玄学而是哲学:Mengzi模型
ACL2021 | 多粒度输入信息不降低推理速度,腾讯看点提出高效预训练方法LICHEE
机器之心报道 编辑:张倩 既能利用多粒度输入信息,又不降低推理速度,腾讯看点等机构的研究者在一篇 ACL 论文中提出了一种高效的语言模型预训练方法荔枝 LICHEE。经过半年多的摸索改进,荔枝 LICHEE 同时登顶 CLUE 分类榜单、阅读理解榜单、总榜单,其相关的技术创新也被 ACL 2021 录用。 近日,腾讯看点 NLP 内容算法专家郭伟东在机器之心举办的 ACL 论文分享会上对此研究进行了解读,欢迎大家浏览视频。 基于大型语料库的语言模型预训练在构建丰富的上下文表示方面已经取得了巨大的成功,也在
机器之心
2023/03/29
2840
ACL2021 | 多粒度输入信息不降低推理速度,腾讯看点提出高效预训练方法LICHEE
我组18篇论文被ACL 2022录用
近日,ACL 2022录用结果出炉,我组18篇论文被ACL 2022录用,其中主会论文13篇,Findings论文5篇。以下为论文列表及介绍:
对白
2022/02/26
1.6K0
ACL 2022录用结果出炉:国内多支团队晒“战绩”,清华一实验组18篇入选
大数据文摘转载自数据实战派 2月24日,第 60届国际计算语言学协会年会(ACL 2022)公布接收结果。值得一提的是,该结果系大会采用 ACL Rolling Review 机制后的首次尝试。 根据官方公开信息,现将多支国内团队的录取结果汇总如下,包括清华NLP团队、中科院计算所跨媒体计算课题组(ICTMCG)、北京语言大学语言监测与智能学习研究组(BLCU-ICALL)、中科院软件所中文信息处理实验室,入选论文方向涵盖预训练、多模态、无监督等前沿方法。 其中,清华NLP团队18篇论文被ACL 2022录
大数据文摘
2022/03/04
1.2K0
机器之心ACL 2022论文分享会干货集锦,6月邀你来CVPR分享会
作为国际最受关注的自然语言处理顶级会议,每年的 ACL 都吸引了大量华人学者投稿、参会。今年的 ACL 大会已是第 60 届,于 5 月 22-5 月 27 日期间举办。 为了给国内 NLP 社区的从业人员搭建一个自由轻松的学术交流平台,2022 年 5 月 21 日,机器之心举办了「ACL 2022 论文分享会」线上学术交流活动。 本次 ACL 论文分享设置了 Keynote、 论文分享、企业招聘等环节,就业内关注的 Transformer、大规模预训练模型等 NLP 热门主题邀请顶级专家、论文作者与观众
机器之心
2022/05/27
7430
机器之心ACL 2022论文分享会干货集锦,6月邀你来CVPR分享会
颠覆大规模预训练!清华杨植麟组提出全新NLP学习框架TLM,学习效率×100倍
基于预训练语言模型(PLM)的方法在自然语言处理领域蓬勃发展,已经在多种标准自然语言任务上实现了最优(SOTA)性能。强大的性能使其成为解决NLP任务的标准方法之一。
新智元
2021/11/29
7080
颠覆大规模预训练!清华杨植麟组提出全新NLP学习框架TLM,学习效率×100倍
【论文笔记】NLP 预训练模型综述
Pre-trained Models for Natural Language Processing: A Survey 花了一上午看完的综述,强烈推荐每个 NLPer 都读一读,很长一段时间内都能当做工具书来用(下一个 break-through 来临前)。
zenRRan
2020/05/18
8610
【论文笔记】NLP 预训练模型综述
NLP预训练范式大一统,不再纠结下游任务类型,谷歌这个新框架刷新50个SOTA
来源:机器之心本文约4100字,建议阅读5分钟本文中,来自谷歌的研究者提出了一种统一各种预训练范式的预训练策略,这种策略不受模型架构以及下游任务类型影响,在 50 项 NLP 任务中实现了 SOTA 结果。 当前,NLP 研究人员和从业者有大量的预训练模型可以选择。在回答应该使用什么模型的问题时,答案通常取决于需要完成什么任务。 这个问题并不容易回答,因为涉及许多更细节的问题,例如使用什么样的架构?span corruption 还是语言模型?答案似乎取决于目标下游任务。 来自谷歌的研究者重新思考了这一问
数据派THU
2022/06/16
3570
NLP预训练范式大一统,不再纠结下游任务类型,谷歌这个新框架刷新50个SOTA
【Transformer】开源 | 牛津大学&字节跳动提出TransMix,将基于Mixup的方法推向增强ViTs
论文地址: http://arxiv.org/pdf/2111.09833v1.pdf
CNNer
2021/12/10
7290
【Transformer】开源 | 牛津大学&字节跳动提出TransMix,将基于Mixup的方法推向增强ViTs
高效评估多模态预训练对齐质量,中科大提出模态融合率MIR
本文作者来自于中国科学技术大学,上海人工智能实验室以及香港中文大学。其中第一作者黄启栋为中国科学技术大学三年级博士生,主要研究方向包括多模态大模型(MLLM)和可信 / 高效 AI,师从张卫明教授。
机器之心
2025/02/14
1290
高效评估多模态预训练对齐质量,中科大提出模态融合率MIR
7 Papers & Radios | 英伟达把GPT-4塞进我的世界;比Adam快2倍的大模型预训练优化器
机器之心 & ArXiv Weekly  参与:楚航、罗若天、梅洪源 本周重要论文包括英伟达提出的首个大模型驱动、可以终身学习的游戏智能体VOYAGER,以及马腾宇团队新出的大模型预训练优化器。 目录: VOYAGER: An Open-Ended Embodied Agent with Large Language Models Sophia: A Scalable Stochastic Second-order Optimizer for Language Model Pre-training RW
机器之心
2023/05/31
3370
7 Papers & Radios | 英伟达把GPT-4塞进我的世界;比Adam快2倍的大模型预训练优化器
近期必读 ICLR 2021 【模型压缩】&【预训练】相关论文】
本期的关注焦点是【模型压缩】&【预训练】的7篇论文。点击文末“阅读原文”,获取正在接受盲审的论文列表。
Houye
2020/11/10
6950
近期必读 ICLR 2021 【模型压缩】&【预训练】相关论文】
近期必读 ICLR 2021 【模型压缩】&【预训练】相关论文】
Task-Agnostic and Adaptive-Size BERT Compression
zenRRan
2020/11/11
1.4K0
近期必读 ICLR 2021 【模型压缩】&【预训练】相关论文】
【综述专栏】超详细的NLP预训练语言模型总结清单!
在科学研究中,从方法论上来讲,都应“先见森林,再见树木”。当前,人工智能学术研究方兴未艾,技术迅猛发展,可谓万木争荣,日新月异。对于AI从业者来说,在广袤的知识森林中,系统梳理脉络,才能更好地把握趋势。为此,我们精选国内外优秀的综述文章,开辟“综述专栏”,敬请关注。
马上科普尚尚
2021/03/17
1.4K0
【综述专栏】超详细的NLP预训练语言模型总结清单!
中科院提出:视觉-语言预训练(VLP)综述,了解多模态最新进展!
让机器做出与人类相似的反应一直是 AI 研究不懈追求的目标。为了让机器具有感知和思考的能力,研究人员进行了一系列相关研究,如人脸识别、阅读理解和人机对话,通过这些任务训练和评估机器在特定方面的智能。一般来讲,领域专家通过手工构建标准数据集,然后在这些数据集上训练和评估相关模型。然而,由于相关技术的限制,训练模型往往需要大量的标注数据,以获得更好、更强大的模型。
Amusi
2022/04/18
2.3K0
中科院提出:视觉-语言预训练(VLP)综述,了解多模态最新进展!
大规模、高性能,清华、聆心智能推出中文开放域对话预训练开源模型OPD
自从二十世纪五十年代著名的图灵测试提出将人机对话能力作为衡量机器智能的重要指标后,对话系统便成为自然语言处理领域的重要研究方向,受到学术界和工业界的广泛关注。随着近期预训练技术的发展,对话系统的能力得到了显著提升,众多开源开放、性能优异的英文对话预训练基座模型也成为了对话系统相关研究和应用的基石。
机器之心
2022/12/16
9350
大规模、高性能,清华、聆心智能推出中文开放域对话预训练开源模型OPD
澜舟科技新突破:大模型实现“持续学习”,应用成本大幅降低
近年来,随着计算能力和规模的持续增强,大语言模型(LLMs)的性能得到了显著提升。这些模型通过海量数据的预训练,能够成功捕捉到语言的复杂结构和深层语义信息,从而在多种语言任务上取得突破性的成绩。在这个过程中,Scaling Law发挥了至关重要的作用,它帮助研究者理解了模型规模、数据量以及模型性能之间的内在联系,为模型的优化和资源的高效分配提供了理论指导。
澜舟科技
2024/10/17
2680
南洋理工大学最新视觉语言模型综述:预训练、迁移学习和知识蒸馏啥都有
作为计算机视觉(CV)研究中长期存在的挑战,视觉识别(如图像分类、目标检测和语义分割)是自动驾驶、遥感等众多计算机视觉应用的基石。深度学习的出现使得视觉识别取得了巨大成功。然而,现有的视觉识别研究大多依赖于昂贵的标注数据进行深度神经网络训练,并且通常需要为每个任务训练一个独立的网络,这导致了耗时费力的识别模式。
机器之心
2023/08/08
6400
南洋理工大学最新视觉语言模型综述:预训练、迁移学习和知识蒸馏啥都有
中文预训练模型!| 哈工大 && 科大讯飞 提出多任务预训练模型LERT(含源码)
哈工大&讯飞提出了一种新的预训练语言模型LERT,该模型结合了三种语言特征,与掩模语言模型一起进行多任务预训练。实验结果显示,LERT算法能够显著提高各种预训练语言模型的性能。
ShuYini
2022/12/06
1.7K0
中文预训练模型!| 哈工大 && 科大讯飞 提出多任务预训练模型LERT(含源码)
推荐阅读
今年英语高考,CMU用重构预训练交出134高分,大幅超越GPT3
2800
【论文笔记】当Bert炼丹不是玄学而是哲学:Mengzi模型
7680
ACL2021 | 多粒度输入信息不降低推理速度,腾讯看点提出高效预训练方法LICHEE
2840
我组18篇论文被ACL 2022录用
1.6K0
ACL 2022录用结果出炉:国内多支团队晒“战绩”,清华一实验组18篇入选
1.2K0
机器之心ACL 2022论文分享会干货集锦,6月邀你来CVPR分享会
7430
颠覆大规模预训练!清华杨植麟组提出全新NLP学习框架TLM,学习效率×100倍
7080
【论文笔记】NLP 预训练模型综述
8610
NLP预训练范式大一统,不再纠结下游任务类型,谷歌这个新框架刷新50个SOTA
3570
【Transformer】开源 | 牛津大学&字节跳动提出TransMix,将基于Mixup的方法推向增强ViTs
7290
高效评估多模态预训练对齐质量,中科大提出模态融合率MIR
1290
7 Papers & Radios | 英伟达把GPT-4塞进我的世界;比Adam快2倍的大模型预训练优化器
3370
近期必读 ICLR 2021 【模型压缩】&【预训练】相关论文】
6950
近期必读 ICLR 2021 【模型压缩】&【预训练】相关论文】
1.4K0
【综述专栏】超详细的NLP预训练语言模型总结清单!
1.4K0
中科院提出:视觉-语言预训练(VLP)综述,了解多模态最新进展!
2.3K0
大规模、高性能,清华、聆心智能推出中文开放域对话预训练开源模型OPD
9350
澜舟科技新突破:大模型实现“持续学习”,应用成本大幅降低
2680
南洋理工大学最新视觉语言模型综述:预训练、迁移学习和知识蒸馏啥都有
6400
中文预训练模型!| 哈工大 && 科大讯飞 提出多任务预训练模型LERT(含源码)
1.7K0
相关推荐
今年英语高考,CMU用重构预训练交出134高分,大幅超越GPT3
更多 >
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文