首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

BRIO:抽象文本摘要任务新SOTA模型

在 SimCLS [2]论文发布后不久,作者又发布了抽象文本摘要任务SOTA结果 [1]。BRIO在上述论文基础上结合了对比学习范式。 BRIO解决什么问题?...我们通常使用最大似然估计(Maximum Likelihood Estimation, MLE)损失来训练序列模型。...训练和推理过程之间也存在差异,在生成过程中模型基于自己之前预测步骤,而不是目标总结。在推理过程中,当模型开始偏离目标(并变得更加混乱)时,就会造成更严重偏差。...BRIO-Loop微调方案 论文研究使用 BART 训练模型进行生成阶段。但是使用 BRIO-Mul 模型是更好,因为它已经超越了 BART 性能。...结果 BRIO方法刷新了三个抽象摘要数据集:CNN/DailyMail、XSum和NYTSOTA结果。从下图4可以看出,该方法对于长摘要和短摘要数据集都有较好性能。

70020
您找到你想要的搜索结果了吗?
是的
没有找到

MIGA项目原作解读:基于生成式训练语言模型T5Text-to-SQL模型

越来越多工作证明了训练语言模型中蕴含着丰富知识,针对不同任务,用合适训练方式来撬动训练语言模型,能更好地提升模型能力。...最近也有一些关于 Text-to-SQL 研究是基于生成式语言模型,可以有效地继承训练语言模型知识和能力。...Multi-task Generation Framework for Conversational Text-to-SQL》中,为了降低对基于语法树依赖,更好地挖掘训练语言模型能力,研究者在训练...MIGA 分为两阶段训练过程。在训练阶段,MIGA 使用与 T5 相同训练范式,额外提出了三个与 Text-to-SQL 相关辅助任务,从而更好地激发训练语言模型在目标任务上能力。...分享主题:MIGA:基于生成式训练语言模型T5Text-to-SQL模型 分享嘉宾:付颖雯,广东外语外贸大学三年级硕士研究生,导师为蒋盛益教授,网易互娱 AI Lab 成员。

63010

ICLR 2020 | ELECTRA:新型文本训练模型

今天介绍斯坦福大学和Google Brain团队在ICLR2020论文,该研究提出ELECTRA语言模型,它是一种新型训练方法,其关键点在于将训练文本编码器作为标识符而非生成器,来处理现存语言模型问题...最近基于maskd langage modeling(MLM)训练模型,比如BERT,主要是使用[MASK]令牌替换输入序列中部分令牌,然后训练一个模型来修复原来令牌。...由于学习了双向表示,使用MLM模型会比传统语言模型训练更加有效,但是由于模型只能从每个样本中15%令牌进行学习,因此需要大量计算资源。...作者将其应用于Transformer文本编码器训练(Vaswanietal.,2017),并且对下游任务进行微调。...相比之下,我们训练目标是更加有效率,并且在后续任务中取得更好表现,甚至在使用相对少量计算资源时也能很好地工作,作者希望这将使开发和应用训练文本编码器能更容易被研究人员和实践人员使用,而不需要使用那么多计算资源

71250

利用大模型打造文本摘要训练新范式

这篇文章主要讨论是生成式文本摘要方法,如何利用对比学习和大模型实现最新生成式文本摘要训练范式。...2、生成式文本摘要训练方法和问题 生成式文本摘要训练一般采用极大似估计方式。...第二个任务是一个对比学习任务,让一个训练文本摘要模型使用beam search生成不同两个结果,使用ROUGE评估这两个生成结果和标准答案之间哪个更好,以确定这两个摘要排序。...第二种方式为GPTScore,主要是利用训练模型对生成摘要进行打分,以这个打分作为评估摘要质量依据,然后使用类似BRIO中方式进行对比学习训练。...GPTScore是Gptscore: Evaluate as you desire(2023)中提出一种基于模型评估生成文本质量方法。

1.6K50

基于gpt-2模型(117M训练模型文本自动生成测试

openaigpt-2模型最近在风口浪尖上。...Language Models are Unsupervised Multitask Learners论文已经出来,但是由于该模型没有将训练过程开源出来,所以本博客仅仅是针对已经公布117M训练模型进行测试...找更大数量无监督训练数据来执行多任务学习,使模型更具泛化能力。论文实验也证明了该模型具有惊人效果。...该论文模型大部分还是遵循GPT-1模型,但有两点不同是: (1)训练数据集更加庞大; (2)在第二阶段时候,无监督地做多样性任务。 2、117M实验测试 执行测试程序,效果如下: ?...其中任选一个例子,可以看到对话自动生成效果,可读性还是非常好

1.2K30

【NLP】T5 模型:Text-to-Text 训练模型超大规模探索

之后未来做 NLP 实验时,可能就不再是自己怎么调一些模型了,而是无论什么任务,直接拿来一个超大训练模型,然后主要工作就变成了怎么把任务转换成合适文本输入输出,于是我们就成了带引号”数据科学家“。...比如上图中,输出 3.8 其实不是数值,而是一串文本,之所以能进行这样操作,应该完全赖于 T5 模型强大容量。...终于获得了完整 T5 模型,还有它训练方法。...到此基本上 T5 训练就大致说完了,之后是些细碎探索。...Datasets 接着作者们拿着 C4 数据集做了各种实验,比如说从里面分出各种类型数据集,单独训练 T5 模型,之后看在下游任务表现,发现一些情况领域内训练数据可以增强下游任务(想当然)。

79840

T5 模型:NLP Text-to-Text 训练模型超大规模探索

之后未来做 NLP 实验时,可能就不再是自己怎么调一些模型了,而是无论什么任务,直接拿来一个超大训练模型,然后主要工作就变成了怎么把任务转换成合适文本输入输出,于是我们就成了带引号”数据科学家“。...比如上图中,输出 3.8 其实不是数值,而是一串文本,之所以能进行这样操作,应该完全赖于 T5 模型强大容量。...终于获得了完整 T5 模型,还有它训练方法。...到此基本上 T5 训练就大致说完了,之后是些细碎探索。...Datasets 接着作者们拿着 C4 数据集做了各种实验,比如说从里面分出各种类型数据集,单独训练 T5 模型,之后看在下游任务表现,发现一些情况领域内训练数据可以增强下游任务(想当然)。

1.7K31

AAAI 2023 | 基于T5两阶段多任务Text-to-SQL训练模型MIGA

机器之心专栏 作者:网易互娱 AI Lab 网易互娱 AI Lab 联合广东外语外贸大学和哥伦比亚大学基于训练语言模型 T5 训练方式,提出了两阶段多任务训练模型 MIGA。...近期,网易互娱 AI Lab 联合广东外语外贸大学和哥伦比亚大学基于训练语言模型 T5 训练方式,提出了两阶段多任务训练模型 MIGA。...为了降低对基于语法树依赖,更好地挖掘训练语言模型能力,该研究在训练 T5 模型框架下,提出了一个两阶段多任务 Text-to-SQL 训练模型 MIGA (MultI-task Generation...多任务训练阶段 该研究主要参考 T5 训练方式,基于已经训练 T5 模型,设计了四个训练任务: Text-to-SQL 主任务:上图中黄色部分,通过设计 Prompt 为”translate...结语 网易互娱 AI Lab 针对 Text-to-SQL 提出了一个基于 T5 两阶段多任务训练模型:MIGA。

52220

AI绘画中CLIP文本-图像训练模型

CLIP:旨在关联图像和文本,使模型能够理解视觉内容并有效地将其与语言描述相关联。 技术关联 训练和大数据:CLIP 和 GPT 都使用了训练方法,在大规模数据集上进行学习。...GPT 在文本数据上进行训练,而 CLIP 在图像和文本对上进行训练。 深度学习和神经网络:两者都基于深度学习原理,使用神经网络架构来处理和生成数据。...可以考虑使用 OpenAI 发布官方代码库或者像 transformers 这样第三方库,它们提供了训练 CLIP 模型和方便接口。...训练过程:在训练扩散模型时,需要确保文本条件信息被正确地用于指导图像生成。这可能涉及调整损失函数,以奖励那些更好地与文本描述相匹配图像。...它是目前效果最好开源中文CLIP模型之一,为中文多模态任务提供了有价值训练权重。

55910

6种用于文本分类开源训练模型

迁移学习和训练模型有两大优势: 它降低了每次训练一个新深度学习模型成本 这些数据集符合行业公认标准,因此训练模型已经在质量方面得到了审查 你可以理解为什么经过训练模特会大受欢迎。...我们已经看到像谷歌BERT和OpenAIGPT-2这样模型真的很厉害。在这里中,我将介绍6种最先进文本分类训练模型。...以下是文本分类任务摘要,以及XLNet如何在这些不同数据集上执行,以及它在这些数据集上实现高排名: 训练模型2:ERNIE 尽管ERNIE 1.0(于2019年3月发布)一直是文本分类流行模式...训练模型3:Text-to-Text Transfer Transformer(T5) 老实说,与其他模型相比,我在学习这个模型上获得了最大乐趣。...T5在20多个已建立NLP任务上实现了SOTA——这是很少见,而且从度量标准来看,它尽可能接近人类输出。 T5模型跟踪了最近关于未标记数据训练趋势,然后在标记文本上微调该模型

2.1K10

tensorflow 2.0+ 训练BERT模型文本分类

基于transformers语言模型在许多不同自然语言处理(NLP)基准任务测试上都取得了很大进展。迁移学习与大规模transformers语言模型训练结合正在成为现代NLP一个标准。...然后,我们将演示训练BERT模型文本分类任务微调过程,这里运用是TensorFlow 2.0+ Keras API。 文本分类–问题及公式 一般来说, 分类是确定新样本类别问题。...最先进transformers模型 有很多基于transformers语言模型。...微调(Fine-tuning) 一旦我们自己训练模型,或者加载了已训练模型(例如BERT-based-uncased、BERT-based-chinese),我们就可以开始对下游任务(如问题解答或文本分类...所以保存训练模型,然后微调一个特定数据集非常有用。与训练不同,微调不需要太多计算能力,即使在单个 GPU 上,也可以在几个小时内完成微调过程。

2.3K40

帝国理工联手谷歌提出抽象文本摘要最佳模型 | ICML 2020

但是,尚未有针抽象文本摘要(abstractive text summarization)定制训练目标。此外,目前抽象文本摘要任务也缺乏跨领域系统评价。...这种训练目标确实适合于抽象摘要,因为它非常类似于下游任务,从而促进模型对整个文档理解和类似摘要生成。需要指出是,选择重要句子比随机选择或者选择前几句结果性能都要好。...2、训练语料和下游任务 与 T5 类似,本文训练所用海量语料也是通过网络爬取。...接着在 12 个抽象摘要数据集上微调 PEGASUS,以 ROUGE 得分来看取得当下最好结果,但参数量只有 T5 5%。...5 总结 本文提出 PEGASUS,一种基于 gap-sentences 生成序列-序列模型,它为抽象文本摘要任务定制训练目标 GSG。

74220

训练模型训练语言模型前世今生之风起云涌

在专题上一期推送【萌芽时代】里,我们介绍了训练语言模型思想萌芽。今天我们推出这篇推送, 将继续为大家介绍训练语言模型是如何进一步发展和演进。...本文描述了一种通用非监督训练方法,提升了seq2seq模型准确性。...证明了训练过程直接提高了seq2seq模型泛化能力,再次提出了训练重要性和通用性。...同时文中通过做对比实验确认了,对机器翻译来说,模型对泛化能力主要提升就来自于训练参数特征,而对摘要提取,encoder训练模型效果巨大提升和泛化能力提高做出了贡献。...图2为训练seq2seq模型结构,红色为encoder部分,蓝色为decoder部分,所有方框内参数均为语言模型训练,而方框外参数为随机初始化。

1.4K20

ICCV 2023:探索基于生成模型 Backbone 训练

ICCV 2023:探索基于生成模型 Backbone 训练 前言 请添加图片描述 我们这次要介绍文章被接收在 ICCV 2023 上,题为:DreamTeacher: Pretraining...这篇文章继续了这一研究方向,但重点放在从训练生成模型中,特别是扩散模型,向下游图像主干中提取知识,作为一种通用训练方式。...实验 在实验中,使用生成模型包含:unconditional BigGAN、ICGAN、StyleGAN2;对于基于扩散模型,使用了 ADM 和 stable diffusion 模型。...与现有自监督学习方法相比,这篇文章基于生成模型训练方法表现更为优异,这些 benchmark 测试包括 COCO、ADE20K 和 BDD100K 等。...这篇文章工作为生成式训练提供了新视角和方法,并在视觉任务中充分利用了生成模型。在近两年论文中,生成式训练技术是一个比较有趣方向。

41530

基于训练模型金融事件分析及应用

训练模型技术在翻译、搜索、生成等领域都体现了它强大能力,应用在金融事件分析中也取得非常显著进步。金融事件分析主要任务有三块:第一块是非结构化数据智能解析。...金融领域信息多数以非结构化数据形式存在,比如PDF。从非结构数据中解析出重要、准确、格式语义清楚文本对后面的事件分析至关重要,它能有效减少噪音数据、脏数据对模型干扰,提高结果准确度。...根据某个事件类型prompt,模型在输入文本上进行tokenBIO标签分类,抽取相应事件触发词。如果针对当前prompt类型能够抽出触发词,则对应事件类型和触发词就得到了。...实验显示,对比另外两个事件模型,我们方法在全量训练数据和zero-shot和few-shot上都有明显优势(见图 9 右侧表格)。2....最后,检测模型和事件抽取模型融入一个端到端模型,并联合训练基于以上改进,TDE-GTEE在ACE05和ERE上都达到了SOTA水平,如图 14 表格所示。

87850

T5,一个探索迁移学习边界模型

模型首先在大型语料库上进行无监督训练(像 BERT 中一样隐蔽目标),然后进行有监督训练,其中包含代表所有这些任务输入文本和相关带标签数据,也就是文本(其中输入流中特定标记“将英语翻译为法语...本文目的主要是通过使用 T5 模型 研究从大规模无监督训练到监督任务,与大规模利用转移学习相关因素 在此过程中,性能指标也体现出迁移学习在某些语言理解(在人层面上)任务上局限性。...这些新方法直接从文本解决了当前迁移学习方法一些缺陷,如样本效率、常识理解、因果推理等。 论文主要发现 本论文主要关注基于 Transfomer 模型(与基于 RNN 序列模型相反)。...基于编码器/解码器 Transfomer 体系结构最适合 T5 模型中使用文本文本方法。通过在编码器和解码器之间共享参数计数,参数数量与诸如 BERT 仅编码器模型相同,而性能没有明显下降。...通过使用掩膜(去噪)进行训练以在下游任务中使用提取知识,知识提取能力似乎在模型从仅预测损坏文本跨度中学习知识时受到限制。

81900

文本摘要生成 - 基于注意力序列到序列模型

1 相关背景 维基百科对自动摘要生成定义是, “使用计算机程序对一段文本进行处理, 生成一段长度被压缩摘要, 并且这个摘要能保留原始文本大部分重要信息”....我们将这个模型简称为NAM. 主要分为模型训练(train)和生成摘要(decode)两部分讲解. 2.1 模型训练(train) ? 下面我们举一个例子来说明训练过程: ? ?...通过包含编码器并且联合训练这两个组块, 我们根据当前yc对x不同内容投入不同关注度, 进而到更好结果. 模型结构如下图所示: ? ? ? ?...最近谷歌开源了TensorFlow版本摘要生成程序textsum, Github上项目. textsum核心模型就是基于注意力seq2seq(sequence-to-sequence)模型, textsum...: 读取数据, 调用beam_search解码 beam_search.py: beam search算法核心程序 textsum程序解析 Google开源textsum项目的具体算法是基于Hinton

1.1K20
领券