一
论文题目:
Pairwise Supervised Contrastive Learning of Sentence Representations 论文摘要:
近期句子表示学习的成功主要是通过对NLI数据集上用triplet或者siamese损失进行微调实现性能提升。然而,这些方法存在一个共同的缺点:一对矛盾中的句子不一定来自不同的语义类别。因此,仅仅优化推理蕴含和矛盾的目标函数是无法充分抓取高阶语义特征的,也就是无法对更细粒度的语义进行表示。这个缺点是由于triplet或者siamese损失只能从单个的句子对或三元组中学习,从而导致糟糕的局部最最优解。本文提出PairSupCon, 一种基于实例鉴别学习的方法来对低阶语义(蕴含矛盾推理)到高阶语义之间的联系。PairSupCon在多个包含不同句子语义粒度的下游任务进行评估,并取得明显的性能提升(聚类任务提升10%以上精度,STS任务提升5%以上精度)
论文链接:
https://arxiv.org/abs/2109.05424 Github链接:
http://github.com/amazon-research/
二
论文题目:
Finetuning Pretrained Transformers into RNNs
论文摘要:
Transfermer在自然语言生成方面的表现优于循环神经网络(RNN)。但是,这伴随着巨大的计算成本,因为注意力机制的复杂性随着序列长度而增加。在最近的工作中,高效的Transformer变体得到了越来越多的关注。其中,一个线性复杂的RNN变体已被证明很适合自回归生成。它用随机或启发式特征图近似于softmax注意,但可能难以训练,并可能产生次优的准确性。这项工作的目的是将预训练的transformer转换成高效的循环Transfeomer,在保持准确性的同时提高效率。具体来说,作者提出了一个交换—然后微调的过程:在一个现成的预训练Transformer中,作者用线性复杂度的RNN方案取代softmax注意力,然后进行微调。通过学习特征图,作者的方法在效率和准确性之间提供了比标准Transfermer和其它RNN变体更好的权衡。本文还表明,相对于从头开始训练这些RNN变体,微调过程的训练成本更低。由于许多自然语言任务的模型越来越依赖于大规模的预训练Transformer,这项工作提出了一种可行的方法来提高推理效率,而无需重复昂贵的预训练过程。
论文链接:
https://arxiv.org/abs/2103.13076
三
论文题目:
The Power of Scale for Parameter-Efficient Prompt Tuning 论文摘要:
在这项工作中,作者探索了“提示调整”,这是一种简单而有效的机制,用于学习“软提示”来调节冻结的语言模型以执行特定的下游任务。与 GPT-3 使用的离散文本提示不同,软提示是通过反向传播学习的,并且可以调整以合并来自任意数量的标记示例的信号。作者的端到端学习方法在很大程度上优于 GPT-3 的“few-shot”学习。更值得注意的是,通过使用 T5 对模型大小进行消融,作者表明即时调整在规模上变得更具竞争力:随着模型超过数十亿个参数,作者的方法“缩小了差距”并匹配了模型调整的强大性能(其中所有模型权重都调整)。这一发现尤其重要,因为大型模型的共享和服务成本很高,并且为多个下游任务重用一个冻结模型的能力可以减轻这种负担。作者的方法可以看作是 Li 和 Liang (2021) 最近提出的“前缀调整”的简化,作者提供了与此方法和其他类似方法的比较。最后,作者表明,与完整的模型调优相比,使用软提示调节冻结模型可以提高域迁移的鲁棒性。
论文链接:
https://aclanthology.org/2021.emnlp-main.243.pdf 代码链接:
https://github.com/google-research/prompt-tuning
四
论文题目:
PPT: Pre-trained Prompt Tuning for Few-shot Learning 论文摘要:
prompt通过弥合预训练任务和各种下游任务之间的差距显著提高了模型性能。在这些方法中,prompt tuning(即冻结PLM,只调整软提示)为大规模PLM适应下游任务提供了一种高效的解决方案。然而,prompt尚未得到充分探索。在实验中,我们发现,当下游数据足够时,prompt性能与传统的全模型微调相当,而在小样本学习的条件下,prompt的性能要差得多,这可能会阻碍prompt在实践中的应用。我们将这种低性能归因于prompt的设计方式。因此,在这项工作中,我们建议通过在预训练阶段添加prompt来预训练提示,以获得更好的初始化效果。我们将这个经过预训练的即时调优框架命名为“PPT”。为了保证PPT的通用性,我们将类似的分类任务制定成统一的任务形式,并为该统一任务预训练prompt。大量实验表明,在全数据和小样本设置下,为下游任务调整预先训练的提示可以达到甚至优于全模型微调。
论文链接:
https://arxiv.org/abs/2109.04332 gitHub链接:
https://github.com/thu-coai/PPT