【NLP论文速递】条件语言生成 && 多模态图文生成

ShuYini

发布于 2021-11-26 16:36:19

8910

引言

好久没有给大家分享关于NLG的文章了，那么今天就给大家分享两篇关于文本生成的文章，首先第一篇是基于预训练Transformer的条件语言生成模型；然后第二篇是基于单一多模态模型的图文生成；最后，后面可以下载这两篇Paper及其参考Paper。

正文开始

条件语言生成模型

论文概要

目前预训练的双向 Transformer，如 BERT，在各种语言理解任务中取得了显着的改进，但如果将它们直接应用于自然语言生成并不简单。为解决这个问题，本文中提出了一个工具包（命名为 s2s-ft），用于在条件语言生成任务（例如抽象摘要和问题生成）上微调预训练的双向 Transformer。

设计思路

我们遵循 (Dong et al., 2019) 中的统一建模，它在编码和解码方面共享相同的 Transformer 参数。序列到序列建模是通过在双向 Transformer 中采用精心设计的自注意力掩码来实现的。换句话说，源标记可以相互关注，而目标标记只能关注左侧上下文。

本文在 s2s-ft 中共计实现了三种微调算法。 首先，因果微调为解码目标序列引入了位置偏移，就像在因果语言建模中一样，因此所有解码标记都可以通过一次前向传递进行训练。其次，屏蔽微调随机屏蔽一些目标标记并学习恢复它们。该方法最大限度地减少了预训练和微调之间的不匹配。第三，伪掩码微调将伪掩码附加到原始目标序列中，结合了上述两种方法的优点。

本文在 HuggingFace 的 Transformers 库（Wolf 等人，2019 年）上构建了 s2s-ft 工具包。并对多个语言生成基准进行了大量实验，例如用于抽象摘要的 XSum 和 CNN/DailyMail，以及 SQuAD 问题生成；同时还比较了现成的双向 Transformer（即 BERT）、RoBERTa、ELECTRA、UniLM等预训练模型，发现通过使用XLM-RoBERTa作为多语言预训练模型，s2s-ft 可以轻松应用于多语言语言生成任务；最后实验结果表明，s2s-ft 在不同的任务和语言上都取得了强大的性能。

注：翻到最后获取上述引用文章！

实验快照

1、在XSum 和 SQuAD 开发集上采用不同微调方法的实验结果。

2、四个预训练双向 Transformer 在数据集XSum和SQuAD上的评估结果。其中使用伪屏蔽微调。

3、CNN/DailyMail 和 XSum 测试集上的抽象总结结果

4、在SQuAD数据集上文本生成的实验结果

多模型图文生成

论文概要

研究了图像到文本和文本到图像生成的联合学习，这天然是一个双向任务。当前一般的研究方法是将每个任务设计成两个独立的特定任务模型，但是这么做会带来比较高的工作成本。针对这个问题中，文章提出了一个基于单一多模态模型的统一的图文生成框架来共同研究双向任务，如下图所示。

设计思路

文章提出将图像到文本和文本到图像生成任务统一在一个框架中，在这个框架中采用基于 Transformer 的架构，因为它支持简单且与任务无关的设计，并在图像或文本生成模型中表现出强大的性能。这里将这两个任务都制定为序列生成任务，其中图像和文本表示为标记序列，并且该模型通过交叉熵损失训练学习预测以其它真实标记为条件的目标标记。现有的基于 Transformer 的文本到图像生成工作可以扩展到通过交换输入序列中文本和图像标记的顺序来支持图像到文本的生成。虽然它们已经显示出一些初步的前景，但这些方法仍然面临双向生成的两个主要挑战：特征离散化过程引起的信息损失，以及交叉熵损失训练引起的误差积累。

针对上面遇到的两个挑战，这里文章给出了两个主要设计，即两级粒度特征表示和序列级训练。首先，我们引入了两级粒度特征表示，其中我们使用密集特征来减少图像到文本生成的信息损失，并使用离散特征来启用文本到图像生成。其次，我们提出了一种训练策略，该策略基于序列级预测而不是令牌级预测来优化我们的模型，以弥合训练和测试之间的差距。

实验快照

1、MSCOCO 测试集上的图像到文本 (I2T) 和文本到图像 (T2I) 任务的消融。