首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

层次分解位置编码,让BERT可以处理超长文本

我们知道,BERT无法处理超长文本的根本原因是BERT使用了从随机初始化训练出来的绝对位置编码,一般的最大位置设为了512,因此顶多只能处理512个token,多出来的部分就没有位置编码可用了。...^2)复杂度,导致长序列时显存用量大大增加,一般显卡也finetune不了 本文主要解决第一个问题,即假设有足够多的显存前提下,如何简单修改当前最大长度为512的BERT模型,使得它可以直接处理更长的文本...不同alpha下MLM的训练准确率 然后测了两个长文本分类问题,分别将长度设为512和1024,其他参数不变进行finetune(直接finetune,没有先进行MLM继续预训练),其中一个数据集的结果没有什么明显变化...所以,大家如果有足够显存的显卡,那就尽管一试吧,尤其是长文本的序列标注任务,感觉应该挺适合的 Reference 层次分解位置编码,让BERT可以处理超长文本

1.7K20
您找到你想要的搜索结果了吗?
是的
没有找到

ChatGPT能写长篇小说了,ETH提出RecurrentGPT实现交互式超长文本生成

来自苏黎世联邦理工和波形智能的团队发布了 RecurrentGPT,一种让大语言模型 (如 ChatGPT 等) 能够模拟 RNN/LSTM,通过 Recurrent Prompting 来实现交互式超长文本生成...RecurrentGPT 则另辟蹊径,是利用大语言模型进行交互式长文本生成的首个成功实践。...这样的循环计算机制打破了常规Transformer 模型在生成长篇文本方面的限制,从而实现任意长度文本的生成,而不遗忘过去的信息。 图 2 RecurrentGPT 基本结构示意。 具体来讲。...这个新的长文本生成范式将带给所有内容创作者和读者一种全新的体验。...在实验中,作者们将 RecurrentGPT 与之前的 SoTA 长文本生成方法,在统一使用 ChatGPT 作为基座模型的情况下,在长文本(6000 单词)和较长文本(3000 单词)的设定下进行 pair-wise

22020
领券