前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >7 Papers & Radios | Transformer新变体∞-former;谷歌1370亿参数模型比GPT-3更强

7 Papers & Radios | Transformer新变体∞-former;谷歌1370亿参数模型比GPT-3更强

作者头像
机器之心
发布2023-03-29 17:42:32
2380
发布2023-03-29 17:42:32
举报
文章被收录于专栏:机器之心机器之心

机器之心 & ArXiv Weekly Radiostation

参与:杜伟、楚航、罗若天

本周论文包括 DeepMind 等机构的研究者提出了一种名为 ∞-former 的模型,它是一种具备无限长期记忆(LTM)的 Transformer 模型,可以处理任意长度的上下文;谷歌提出具有 1370 亿参数的新模型 FLAN 等研究。

目录:

  1. Panoptic SegFormer 
  2. Hierarchical Conditional Flow: A Unified Framework for Image Super-Resolution and Image Rescaling 
  3. FINETUNED LANGUAGE MODELS ARE ZERO-SHOT LEARNERS 
  4. ∞-former : Infinite Memory Transformer 
  5. Pre-Trained Models: Past, Present and Future 
  6. IMPACT OF GPU UNCERTAINTY ON THE TRAINING OF PREDICTIVE DEEP NEURAL NETWORKS 
  7. PermuteFormer: Efficient Relative Position Encoding for Long Sequences 
  8. ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)

论文 1:Panoptic SegFormer

  • 作者:Zhiqi Li1 、 Wenhai Wang、Enze Xie、 Zhiding Yu 等
  • 论文链接:https://arxiv.org/pdf/2109.03814v1.pdf

摘要:来自南京大学、香港大学、英伟达等机构的研究者提出了 Panoptic SegFormer,这是一个使用 Transformer 进行端到端全景分割的通用框架。该方法扩展了 Deformable DETR,并为 Things 和 Stuff 提供了统一的 mask 预测工作流程,使全景分割 pipeline 简洁有效。

该研究使用 ResNet-50 作为网络主干,在 COCO test-dev 拆分中实现了 50.0% 的 PQ,在无需附属条件(bells and whistles)的情况下,结果显著优于 SOTA 方法。此外,使用性能更强的 PVTv2-B5 作为网络主干,Panopoptic SegFormer 在 COCO val 和 test-dev 拆分上以单尺度输入实现了 54.1%PQ 和 54.4%PQ 的新记录。

如图 2 所示,Panoptic SegFormer 由三个关键模块组成:transformer 编码器、位置解码器(location decoder)、掩码解码器(mask decoder)。其中:

(1)transformer 编码器用于细化主干给出的多尺度特征图;

(2)位置解码器用于捕获物体的位置线索;

(3)掩码解码器用于最终分类和分割。

图 2:Panoptic SegFormer 架构。

图 3:掩码解码器架构。

推荐:Panoptic SegFormer 刷新全景分割记录。

论文 2:Hierarchical Conditional Flow: A Unified Framework for Image Super-Resolution and Image Rescaling

  • 作者:Jingyun Liang、Andreas Lugmayr、 Kai Zhang 等
  • 论文链接:https://arxiv.org/pdf/2108.05301.pdf

摘要:近期,归一化流(Normalizing Flow)模型在底层视觉领域取得了惊人的效果。在图像超分辨率上(image SR),可以用来从低分辨率图像中预测出细节不同的高质量高分辨率( diverse photo-realistic)图像。在图像再缩放(image rescaling)上,可以用来联合建模下采样和上采样过程,从而提升性能。本文提出了一个统一的框架 HCFlow,可以用于处理这两个问题。

具体而言,HCFlow 通过对低分辨率图像和丢失的高频信息进行概率建模,在高分辨率和低分辨率图像之间学习一个双射(bijection)。其中,高频信息的建模过程以一种多层级的方式条件依赖于低分辨率图像。在训练中,该研究使用最大似然损失函数进行优化,并引入了感知损失函数(perceptual loss)和生成对抗损失函数(GAN loss)等进一步提升模型效果。

实验结果表明,HCFlow 在通用图像超分辨率、人脸图像超分辨率和图像再缩放等任务上取得了最佳的结果。

 网络架构图。

推荐:ICCV 2021 论文。

论文 3:FINETUNED LANGUAGE MODELS ARE ZERO-SHOT LEARNERS

  • 作者:Jason Wei、 Maarten Bosma、Vincent Y. Zhao 等
  • 论文链接:https://arxiv.org/pdf/2109.01652.pdf

摘要:本文中,Quoc Le 等来自谷歌的研究者探索了一种简单的方法来提高大型语言模型在零样本情况下的性能,从而扩大受众范围。他们认为 NLP 任务可以通过自然语言指令来描述,例如「这部影评的情绪是正面的还是负面的?」或者「把『how are you』译成汉语」。

该研究采用具有 137B 参数的预训练模型并执行指令调整任务,对 60 多个通过自然语言指令表达的 NLP 任务进行调整。他们将这个结果模型称为 Finetuned LANguage Net,或 FLAN。

如下图 1 所示,为了评估 FLAN 执行自然语言推理的能力,该研究在一系列其他 NLP 任务(如常识推理、翻译和情感分析)上对模型进行指令调整。由于此设置确保 FLAN 在指令调整中未见自然语言推理任务,因此可以评估其执行零样本自然语言推理的能力。

该研究实证结果强调了语言模型使用自然语言指令描述任务的能力。更广泛地说,如图 2 所示,指令调整结合了预训练微调(pretrain–finetune)特点,并通过使用 finetune 监督来提高语言模型响应推理时文本交互的能力。

推荐:谷歌 1370 亿参数新模型比 GPT-3 更强。

论文 4:∞-former : Infinite Memory Transformer

  • 作者:Pedro Henrique Martins 、 Zita Marinho 等
  • 论文链接:https://arxiv.org/pdf/2109.00301.pdf

摘要:来自 DeepMind 等机构的研究者提出了一种名为 ∞-former 的模型,它是一种具备无限长期记忆(LTM)的 Transformer 模型,可以处理任意长度的上下文。

通过利用连续空间注意力机制来处理长期记忆,∞-former 的注意力复杂度可以独立于上下文长度。因此,它能够借助一个固定的算力开销建模任意长度的上下文并保持「粘性记忆(sticky memories)」。在一个综合排序任务上进行的实验证明了∞-former 能够保留来自长序列的信息。此外,研究者还进行了语言建模的实验,包括从头开始训练一个模型以及对一个预训练的语言模型进行微调,这些实验显示了无限长期记忆的优势。

为了使模型能够处理长程上下文,研究者提出用一个连续 LTM 来扩展原始 transformer,这个 LTM 存储前面步骤的输入嵌入和隐藏状态。他们还考虑了有两种记忆的可能性:LTM 和 STM(短期记忆),类似于 transformer-XL 的记忆。∞-former 的整体架构如下图 1 所示。

推荐:具备无限长期记忆(LTM)的 Transformer 模型,可以处理任意长度的上下文。

论文 5:Pre-Trained Models: Past, Present and Future

  • 作者:Xu Han、 Zhengyan Zhang、 Ning Ding 等
  • 论文链接:http://keg.cs.tsinghua.edu.cn/jietang/publications/AIOPEN21-Han-et-al-Pre-Trained%20Models-%20Past,%20Present%20and%20Future.pdf

摘要:来自清华大学计算机科学与技术系、中国人民大学信息学院等机构的多位学者深入研究了预训练模型的历史,特别是它与迁移学习和自监督学习的特殊关系,揭示了 PTM 在 AI 发展图谱中的重要地位。

此外,该研究还回顾了 PTM 的最新突破。这些突破得益于算力的激增和数据可用性的增加,目前正在向四个重要方向发展:设计有效的架构、利用丰富的上下文、提高计算效率以及进行解释和理论分析。最后,该研究讨论了关于 PTM 一系列有待解决的问题和研究方向,并且希望他们的观点能够对 PTM 的未来研究起到启发和推动作用。

推荐:综述预训练模型的过去、现在与未来。

论文 6:IMPACT OF GPU UNCERTAINTY ON THE TRAINING OF PREDICTIVE DEEP NEURAL NETWORKS

  • 作者:Maciej Pietrowski、Andrzej Gajda 等
  • 论文链接:https://arxiv.org/pdf/2109.01451.pdf

摘要:最近来自索尼、波兰的波兹南密茨凯维奇大学、大阪大学等研究员联合发表了一篇文章,他们在研究神经网络不确定性的时候,偶然发现由 GPU 引起的不确定性可以提高深度神经网络的精度。

该研究表明,深度神经网络在面对各种硬件和软件配置时表现出的「不确定性」有利于更昂贵 GPU,并在测试中发现,专门在 CPU 上训练的深度神经网络在相同的 epoch 上产生更高的误差。

在论文的补充示例中,我们看到(底部两行)从各种 GPU 获得的结果质量相似,而在第一行中得出,从一系列其他功能非常强大的 CPU 获得结果较差。

但是,该研究发现这一现象并不适用于目前流行的机器学习算法,比如简单的自编码器(autoencoder),这种现象就不会出现。

尽管如此,这项工作还是暗示了复杂神经网络训练的有效性可能存在逃逸速度(escape velocity),在这种情况下以较低的速度和较长的训练时间覆盖相同的操作,并不能获得人们期望的数学迭代例程的同等性能。

推荐:关于 GPU 训练的一项新发现。

论文 7:PermuteFormer: Efficient Relative Position Encoding for Long Sequences

  • 作者:Peng Chen
  • 论文链接:https://arxiv.org/pdf/2109.02377v2.pdf

摘要:Transformer 最近的一个变体是 Performer,它通过线性注意力机制将 Transformer 扩展到更长的序列,但与相对位置编码不兼容,而相对位置编码比绝对位置编码有优势。在本文中,研究者讨论了向 Performer 添加相对位置编码的可能方法。基于分析,他们提出了 PermuteFormer,一种基于 Performer 的相对位置编码模型,在长序列上可线性扩展。PermuteFormer 对查询和键应用位置相关变换(position-dependent transformation),将位置信息编码到注意力模块中。

 这种转换是经过精心设计的,因此自注意力的最终输出不会受到 token 绝对位置的影响。PermuteFormer 在设计上引入了可以忽略的计算开销,它的运行速度与 Performer 一样快。研究者在长序列数据集 Long-Range Arena 以及语言建模数据集 WikiText-103 上评估 PermuteFormer。实验表明,PermuteFormer 在几乎没有计算开销的情况下普遍提高了 Performer 的性能,并且在大多数任务上都优于 vanilla Transformer。

Transformer、Performer 、PermuteFormer 的注意力。

推荐:一种基于 Performer 的相对位置编码模型 PermuteFormer。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:

本周 10 篇 NLP 精选论文是:

1. Corpus-based Open-Domain Event Type Induction.  (from Jiawei Han)

2. Learning from Multiple Noisy Augmented Data Sets for Better Cross-Lingual Spoken Language Understanding.  (from Jian Pei)

3. Entity Linking and Discovery via Arborescence-based Supervised Clustering.  (from Andrew McCallum)

4. Detecting Inspiring Content on Social Media.  (from Alon Halevy)

5. Finetuned Language Models Are Zero-Shot Learners.  (from Quoc V. Le)

6. BERT might be Overkill: A Tiny but Effective Biomedical Entity Linker based on Residual Convolutional Neural Networks.  (from ChengXiang Zhai)

7. MATE: Multi-view Attention for Table Transformer Efficiency.  (from William W. Cohen)

8. Retrieve, Caption, Generate: Visual Grounding for Enhancing Commonsense in Text Generation Models.  (from Eduard Hovy)

9. Does BERT Learn as Humans Perceive? Understanding Linguistic Styles through Lexica.  (from Lyle Ungar)

10. PPT: Pre-trained Prompt Tuning for Few-shot Learning.  (from Minlie Huang)

本周 10 篇 CV 精选论文是:

1. CIM: Class-Irrelevant Mapping for Few-Shot Classification.  (from Yan-Jiang Wang)

2. Zero-Shot Open Set Detection by Extending CLIP.  (from Bing Liu)

3. Robustness and Generalization via Generative Adversarial Training.  (from Serge Belongie)

4. Fast Image-Anomaly Mitigation for Autonomous Mobile Robots.  (from Roland Siegwart)

5. FuseFormer: Fusing Fine-Grained Information in Transformers for Video Inpainting.  (from Xiaogang Wang)

6. Temporal RoI Align for Video Object Recognition.  (from Kai Chen)

7. Square Root Marginalization for Sliding-Window Bundle Adjustment.  (from Daniel Cremers)

8. Reconstructing and grounding narrated instructional videos in 3D.  (from Ivan Laptev, Josef Sivic, Marc Pollefeys)

9. Few-shot Learning via Dependency Maximization and Instance Discriminant Analysis.  (from Sun-Yuan Kung)

10. Pose-guided Inter- and Intra-part Relational Transformer for Occluded Person Re-Identification.  (from Jia Li)

本周 10 篇 ML 精选论文是:

1. gen2Out: Detecting and Ranking Generalized Anomalies.  (from Christos Faloutsos)

2. A robust approach for deep neural networks in presence of label noise: relabelling and filtering instances during training.  (from Francisco Herrera)

3. Robust Predictable Control.  (from Ruslan Salakhutdinov, Sergey Levine)

4. Disentangling Alzheimer's disease neurodegeneration from typical brain aging using machine learning.  (from Christos Davatzikos)

5. Cohort Characteristics and Factors Associated with Cannabis Use among Adolescents in Canada Using Pattern Discovery and Disentanglement Method.  (from George Michalopoulos)

6. Detecting and Mitigating Test-time Failure Risks via Model-agnostic Uncertainty Learning.  (from Krishna P. Gummadi, Gerhard Weikum)

7. Dive into Layers: Neural Network Capacity Bounding using Algebraic Geometry.  (from Daniel Cremers)

8. Prescriptive Process Monitoring Under Resource Constraints: A Causal Inference Approach.  (from Marlon Dumas)

9. Topographic VAEs learn Equivariant Capsules.  (from Max Welling)

10. Computing on Functions Using Randomized Vector Representations.  (from Bruno A. Olshausen)

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-09-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
联邦学习
联邦学习(Federated Learning,FELE)是一种打破数据孤岛、释放 AI 应用潜能的分布式机器学习技术,能够让联邦学习各参与方在不披露底层数据和底层数据加密(混淆)形态的前提下,通过交换加密的机器学习中间结果实现联合建模。该产品兼顾AI应用与隐私保护,开放合作,协同性高,充分释放大数据生产力,广泛适用于金融、消费互联网等行业的业务创新场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档