一
论文题目:
Grad2Task: Improved Few-shot Text Classification Using Gradients for Task Representation
论文摘要:
大型预训练的语言模型(LM)(如BERT)提高了许多不同的自然语言处理(NLP)任务的性能。然而,对这样的模型进行微调需要为每个目标任务提供大量的训练样本。同时,许多现实的NLP问题都是“few shot”的,没有足够大的训练集。在这项工作中,我们提出了一种新的基于条件神经过程的few-shot文本分类方法,该方法学习从其他具有丰富标注的任务中进行知识迁移。作者的主要思想是使用来自基本模型的梯度信息来表示每个任务,并训练一个自适应网络,该自适应网络以任务表示为条件来调制文本分类器。以往有任务意识的few-shot learners通过输入编码来表示任务,而本文提出的新的任务表示方法则更加强大,因为梯度反映了任务的输入输出关系。实验结果表明,在一组不同的few-shot任务上,作者的方法比传统的微调、顺序迁移学习和最新的元学习方法具有更好的性能。作者进一步进行了分析和消融,以证明其设计选择是正确的。
论文链接:
https://openreview.net/forum?id=jScy7BjbZeQ
Github:
https://github.com/jixuan-wang/Grad2Task
二
论文题目:
Adversarial Graph Augmentation to Improve Graph Contrastive Learning
论文摘要:
由于现实世界图/网络数据中普遍存在的标签稀缺问题,图神经网络(GNN)的自监督学习是非常必要的。图对比学习(GCL)通过训练GNN来最大化同一图的不同增广形式的表示之间的对应关系,即使不使用标签也可以产生健壮和可转移的GNN。然而,由传统GCL训练的GNN具有捕获冗余图特征的风险,因此可能是脆弱的,并且在下游任务中提供低于平均水平的性能。在这里,作者提出了一种新的理论,称为对抗性GCL(AD-GCL),它通过优化GCL中使用的对抗性图增强策略,使GNN在训练过程中避免捕获冗余信息。作者将AD-GCL算法与理论解释配对,设计了一个基于可训练的边丢弃图增强的实例化算法。通过与最先进的GCL方法进行比较,作者通过实验验证了AD-GCL的性能,在18个不同的基准数据集上,在分子属性回归和分类以及社会网络分类的任务中,在无监督、转移和半监督学习环境下,总体性能分别提高了14%、6%和3%。
论文链接:
https://openreview.net/forum?id=ioyq7NsR1KJ
Github:
https://github.com/susheels/adgcl
三
论文题目:
Long-Short Transformer: Efficient Transformers for Language and Vision
论文摘要:
Transformers在语言和视觉领域都取得了成功。然而,由于自注意力机制具有关于输入序列长度的二次方时间和空间复杂性,所以将它们缩放到如长文档或高分辨率图像之类的长序列的成本高得令人望而却步。在本文中,作者提出了长短Transformer(Transformer-LS),这是一种有效的自注意力机制,用于语言和视觉任务的线性复杂度的长序列建模。它聚合了一个新颖的远程注意力和一个短距离注意力,前者用动态投影来建模远距离相关性,后者用来捕捉细粒度的局部相关性。作者提出了一种双重归一化策略来解决两种注意机制之间的尺度不匹配问题。Transform-LS可以在不增加复杂性的情况下应用于自回归模型和双向模型。作者的方法在语言和视觉领域的多个任务上优于SOTA模型,包括远程Arena基准测试、自回归语言建模和ImageNet分类。例如,Transformer-LS在enwik8上实现了0.97BPC测试,使用的参数数量是以前方法的一半,同时速度更快,并且在相同硬件上与其全注意力版本相比,能够处理3倍长的序列。在ImageNet上,它可以获得最优的结果,同时在高分辨率图像上具有更高的可伸缩性。
论文链接:
https://openreview.net/forum?id=M_lkFOwVdYc
Github:
https://github.com/NVIDIA/transformer-ls
四
论文题目:
Self-Supervised Bug Detection and Repair 论文摘要:
微软推出的基于GAN进行训练,自动bug检测,并在开源社区进行了测试。最近,基于机器学习的程序分析显示出整合形式推理和概率推理以帮助软件开发的前景。然而,在没有大型注释语料库的情况下,训练这些分析是具有挑战性的。为了解决这个问题,作者提出了 BugLab,这是一种 自监督学习错误检测和修复的方法。BugLab 联合训练两个模型:(1) 一个学习检测和修复代码错误的检测器模型,(2) 一个选择器模型,它学习为检测器创建错误代码以用作训练数据。BugLab 的 Python 实现在 2374 个真实错误的测试数据集上比baseline方法提高了 30%,并在开源软件中发现了 19 个以前未知的错误。
论文链接:
https://arxiv.org/abs/2105.12787