7 Papers & Radios | 超越卷积和自注意力的新算子involution；矩阵乘法运算速度新纪录

机器之心

发布于 2023-03-29 18:13:53

2640

发布于 2023-03-29 18:13:53

文章被收录于专栏：机器之心

机器之心 & ArXiv Weekly Radiostation

参与：杜伟、楚航、罗若天

本周的重要论文包括微软研究者提出的首个基于 NeRF 的架构 FastNeRF，新加坡国立大学、字节跳动 AI Lab研究者提出的Re-attention，哈佛、MIT 学者联手，创下矩阵乘法运算最快纪录等研究。

目录：

FastNeRF: High-Fidelity Neural Rendering at 200FPS
Hurdles to Progress in Long-form Question Answering
DeepViT: Towards Deeper Vision Transformer
Open-book Video Captioning with Retrieve-Copy-Generate Network
A Refined Laser Method and Faster Matrix Multiplication
Involution: Inverting the Inherence of Convolution for Visual Recognition
Dynamic Neural Networks: A Survey
ArXiv Weekly Radiostation：NLP、CV、ML 更多精选论文（附音频）

论文 1：FastNeRF: High-Fidelity Neural Rendering at 200FPS

作者：Stephan J. Garbin、Marek Kowalski、Matthew Johnson 等
论文链接：https://arxiv.org/pdf/2103.10380.pdf

摘要： 受到移动和混合现实设备应用场景的启发，微软的研究者提出了首个基于 NeRF 的架构 FastNeRF，该系统能够在终端消费级 GPU 上渲染 200Hz 的高保真逼真图像。该方法的核心是图因式分解，从而可以在空间的每个位置紧凑地缓存一个深度辐射图，并能够利用射线方向高效地查询深度辐射图以估计渲染图像中的像素值。实验表明，该方法的速度是原始 NeRF 算法的 3000 倍，比加速型 NeRF 算法至少块一个数量级，同时能够保持视觉质量和扩展性。

左：NeRF 神经网络架构；右：FastNeRF 架构。

速度（每秒浮点运算次数）对比。

实际渲染效果对比。

推荐：微软新架构 FastNeRF 实现 200 帧的神经渲染。

论文 2：Hurdles to Progress in Long-form Question Answering

作者：Kalpesh Krishna、Aurko Roy、Mohit Iyyer
论文链接：https://arxiv.org/pdf/2103.06332.pdf

摘要：长篇问答（long-form question answering, LFQA）任务包括检索给定问题的相关文档以及使用这些文档生成段落答案。虽然最近提出了很多 LFQS 模型，但马萨诸塞大学阿默斯特分校和谷歌研究院的几位研究者认为，任务制定（task formulation）对目前阻碍建模进展的评估和数据集创建提出了一些根本性挑战。为了证明这些挑战的存在，研究者设计了一个依赖稀疏注意力和对比检索器学习的新系统，以在 ELI5 LFQA 数据集上实现 SOTA 性能。研究者还提出了缓解这些挑战的建议，希望未来可以促进更精确的 LFQA 研究和有意义的进展。

长篇问答任务的主要阻碍。

ELI5 数据集上的性能上 / 下限。

推荐：本文探讨了阻碍长篇问答模型的主要问题，对该领域取得进一步进展非常有意义。

论文 3：DeepViT: Towards Deeper Vision Transformer

作者：Daquan Zhou、Bingyi Kang、Xiaojie Jin 等
论文链接：https://arxiv.org/pdf/2103.11886.pdf

摘要：视觉 transformer (ViT) 现已成功的应用于图像分类任务。来自新加坡国立大学、字节跳动 AI Lab 的研究者表明，不同于卷积神经网络通过堆叠更多的卷积层来提高性能，ViT 的性能在扩展到更深时会迅速饱和。具体而言，该研究根据经验观察，这种扩展困难是由注意力崩溃（attention collapse）问题引起的：随着 Transformer 加深，注意力图在某些层之后逐渐变得相似甚至几乎相同。换句话说，在 DeepViT 模型的顶层中，特征图趋于相同。这一事实表明，在更深层的 ViT 中，自注意力机制无法学习有效的表示学习概念，并且阻碍了模型获得预期的性能提升。基于以上观察，该研究提出了一种简单而有效的方法，称为 Re-attention，可以忽略计算和存储成本重新生成注意力图以增加其在不同层的多样性。该研究提出的方法使得通过对现有 ViT 模型进行较小的修改来训练具有持续性能改进的更深的 ViT 模型变得可行。

DeepViT 模型（b）与原版 ViT（a）的流程图对比。

嵌入维数对跨层生成自注意力图的相似性的影响。

不同 transformer 块数量下，具有 Re-attention 的 DeepViT 模型的 ImageNet Top-1 准确率。

推荐：当使用 32 个 transformer 块训练 DeepViT 模型时，ImageNet 数据集上 Top-1 分类准确率提高了 1.6%。

论文 4：Open-book Video Captioning with Retrieve-Copy-Generate Network

作者：Ziqi Zhang、Zhongang Qi、Chunfeng Yuan 等
论文链接：https://arxiv.org/abs/2103.05284

摘要：视频描述相对来说是一个高层的复杂任务，不同的人对同一个视频的描述也不尽相同。这一复杂任务可以借助内部知识或者外部知识来辅助生成。来自中科院自动所视频内容安全团队和腾讯 PCG 应用研究中心（ARC）的研究者提出了一种称为开卷视频描述（Open-book Video Captioning）的解决思路。该工作借鉴人类在写作或者回答问题的时候，往往会根据已有的知识和记忆，借助外部的资料进行查询，从这些相关的资料中总结或者摘抄文字作为问题的答案。这与最近在自然语言处理领域很火的「开放域问答（Open-domain Question Answer）」的相关研究具有异曲同工之处。

整体流程图。

各种方法在视频 - 文本检索和视频字幕生成任务上的对比。

可视化。

推荐：准确描述视频内容，腾讯 ARC、中科院用「开卷」的思路

论文 5：A Refined Laser Method and Faster Matrix Multiplication

作者：Josh Alman、Vassilevska Williams
论文链接：https://arxiv.org/pdf/2010.05846.pdf

摘要：矩阵乘法作为一种基本的数学运算，在计算机科学领域有着非常广泛的应用，矩阵乘法的快速算法对科学计算有着极为重要的意义。自 1969 年 Strassen 算法开始，人们意识到了快速算法的存在，开始了长达数十年的探索研究。来自哈佛大学与 MIT 的两位研究者发表了一篇论文，他们创建了有史以来矩阵相乘的最快算法，相比于之前最快算法，计算复杂度下降了 10 万分之一。其中，论文一作 Josh Alman 是哈佛大学的博士后研究生，主要研究算法设计与复杂度理论。二作 Vassilevska Williams 是 MIT 计算机科学与人工智能实验室（CSAIL）副教授，致力于将组合和图论工具应用于计算领域。

（左）Josh Alman；图（右） Virginia Vassilevska Williams。

矩阵乘法运算最快的新纪录 O(n^2.3728596)。

推荐：哈佛、MIT 学者联手，创下矩阵乘法运算最快纪录。

论文 6：Involution: Inverting the Inherence of Convolution for Visual Recognition

作者：Duo Li、Jie Hu、Changhu Wang 等
论文链接：https://arxiv.org/abs/2103.06255

摘要：本文是对港科大、字节跳动等机构 CVPR 2021 论文《 Involution: Inverting the Inherence of Convolution for Visual Recognition》的解读，并分享了研究者对网络结构设计（CNN 和 Transformer）的一些理解。具体而言，他们提出了一种新的神经网络算子（operator 或 op）称为 involution，它比 convolution 更轻量更高效，形式上比 self-attention 更加简洁，可以用在各种视觉任务的模型上取得精度和效率的双重提升。通过 involution 的结构设计，我们能够以统一的视角来理解经典的卷积操作和近来流行的自注意力操作。

研究中 involution 的示意图。

算法 1：单纯基于 PyTorch API 简单的伪代码实现。

COCO 目标检测和实例分割。

推荐：这年头，算子也「内卷」了。

论文 7：Dynamic Neural Networks: A Survey

作者：Yizeng Han、Gao Huang、Shiji Song 等
论文链接：https://arxiv.org/pdf/2102.04906v2.pdf

摘要：本文对近年来引起较大研究热情的动态神经网络 (Dynamic Neural Networks) 做了一个比较全面和系统的综述。第 1 章介绍了动态网络的概念、优点以及综述动机。第 2 章主要介绍了最为常见的样本自适应动态网络：模型能够针对不同输入样本，自适应地调节其结构或参数。第 3、4 章中分别介绍了两种更细粒度的动态模型：空间自适应和时间自适应动态网络，分别从每个输入样本的空间、时间维度进行自适应推理。第 5 章总结了动态网络的决策机制和训练策略。第 6 章介绍了动态网络的应用。最后，领域内的开放性问题与未来研究方向在第 7 章中进行讨论。

论文内容框架。

「早退」机制的两种基本实现思路。

MoE 结构。

推荐：论文共同一作韩益增于 3 月 29 日为大家解读此论文，希望大家踊跃报名参与。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation，在 7 Papers 的基础上，精选本周更多重要论文，包括NLP、CV、ML领域各10篇精选，并提供音频形式的论文摘要简介，详情如下：

本周 10 篇 NLP 精选论文是：

1. Learning to Generate Code Comments from Class Hierarchies. (from Raymond J. Mooney)

2. SwissDial: Parallel Multidialectal Corpus of Spoken Swiss German. (from Thomas Hofmann)

3. SelfExplain: A Self-Explaining Architecture for Neural Text Classifiers. (from Eduard Hovy)

4. Finetuning Pretrained Transformers into RNNs. (from Noah A. Smith)

5. Token-wise Curriculum Learning for Neural Machine Translation. (from Jianfeng Gao)

6. Annotation of Chinese Predicate Heads and Relevant Elements. (from Ping Chen)

7. TextFlint: Unified Multilingual Robustness Evaluation Toolkit for Natural Language Processing. (from Xiao Wang)

8. Gender and Racial Fairness in Depression Research using Social Media. (from Mark Dredze)

9. Pretraining the Noisy Channel Model for Task-Oriented Dialogue. (from Phil Blunsom)

10. BERT4SO: Neural Sentence Ordering by Fine-tuning BERT. (from Kun Zhou)

本周 10 篇 CV 精选论文是：

1. Region Similarity Representation Learning. (from Kurt Keutzer, Trevor Darrell)

2. Self-Supervised Pretraining Improves Self-Supervised Pretraining. (from Kurt Keutzer, Trevor Darrell)

3. Matched sample selection with GANs for mitigating attribute confounding. (from Pietro Perona)

4. Efficient Visual Pretraining with Contrastive Detection. (from Oriol Vinyals)

5. THAT: Two Head Adversarial Training for Improving Robustness at Scale. (from Larry S. Davis)

6. The ThreeDWorld Transport Challenge: A Visually Guided Task-and-Motion Planning Benchmark for Physically Realistic Embodied AI. (from Antonio Torralba, Joshua B. Tenenbaum)

7. Paint by Word. (from Aude Oliva, Antonio Torralba)

8. Diverse Branch Block: Building a Convolution as an Inception-like Unit. (from Xiangyu Zhang)

9. LSDAT: Low-Rank and Sparse Decomposition for Decision-based Adversarial Attack. (from Mubarak Shah)

10. Co-Grounding Networks with Semantic Attention for Referring Expression Comprehension in Videos. (from Shih-Fu Chang)

本周 10 篇 ML 精选论文是：

1. A Variational Inequality Approach to Bayesian Regression Games. (from Michael I. Jordan)

2. Replacing Rewards with Examples: Example-Based Policy Search via Recursive Classification. (from Sergey Levine, Ruslan Salakhutdinov)

3. Self-supervised Representation Learning with Relative Predictive Coding. (from Louis-Philippe Morency, Ruslan Salakhutdinov)

4. Language-Agnostic Representation Learning of Source Code from Structure and Context. (from Jure Leskovec)

5. Learning Task Decomposition with Ordered Memory Policy Network. (from Aaron Courville, Joshua B. Tenenbaum)

6. ECG-TCN: Wearable Cardiac Arrhythmia Detection with a Temporal Convolutional Network. (from Luca Benini)

7. Dynamic Weighted Learning for Unsupervised Domain Adaptation. (from Lei Zhang)

8. Embracing the Disharmony in Heterogeneous Medical Data. (from Christos Davatzikos)

9. Robust subgroup discovery. (from Thomas Bäck)

10. Generative Minimization Networks: Training GANs Without Competition. (from Thomas Hofmann)

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2021-03-28，如有侵权请联系 cloudcommunity@tencent.com 删除

论文

本文分享自机器之心微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度

7 Papers & Radios | 超越卷积和自注意力的新算子involution；矩阵乘法运算速度新纪录

7 Papers & Radios | 超越卷积和自注意力的新算子involution；矩阵乘法运算速度新纪录

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐