前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【GPT】开源 | 清华大学提出对新数据进行高效持续预训练的模型ELLE

【GPT】开源 | 清华大学提出对新数据进行高效持续预训练的模型ELLE

作者头像
CNNer
发布2023-02-28 10:53:44
5330
发布2023-02-28 10:53:44
举报
文章被收录于专栏:CNNer

论文地址: http://arxiv.org/pdf/2203.06311v2.pdf

来源: 清华大学

论文名称:ELLE: Efficient Lifelong Pre-training for Emerging Data

原文作者:Yujia Qin

内容提要

现有的预训练语言模型(PLM)通常使用固定的、不更新的数据进行训练,而忽略了在现实场景中,各种来源的数据可能会不断增长,而这需要PLM能够持续地整合新旧信息。虽然这个目标可以通过对所有新老数据重新大规模训练来实现,但众所周知,这样的过程在计算上是十分昂贵的。为此,本文提出了ELLE,旨在对新来的数据进行高效的持续预训练。具体来说,ELLE包括(1)功能维持的模型扩展,它能够灵活地扩展现有PLM的宽度和深度,以提高知识获取的效率;(2)预植领域提示词(prompt),从而让模型能够更好地区分预训练期间学到的通用知识,正确地激发下游任务的知识。我们在BERT和GPT上使用来自5个领域的数据来试验,结果表明ELLE在预训练效率和下游性能方面优于各种传统的持续学习方法。

主要框架及实验结果

声明:文章来自于网络,仅用于学习分享,版权归原作者所有。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-02-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CNNer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档