7 Papers & Radios | 6年前的ResNet重回巅峰；AI辩手登上Nature封面

机器之心

发布于 2021-03-30 15:13:11

4160

发布于 2021-03-30 15:13:11

文章被收录于专栏：机器之心机器之心

机器之心 & ArXiv Weekly Radiostation

参与：维度、楚航、罗若天

本周的重要论文包括IBM 海法研究院开始研发能够与人类辩论的 AI 系统——Project Debater、谷歌推出的首个完全基于 Transformer 的视频架构 TimeSformer等。

目录：

Greedy Hierarchical Variational Autoencoders for Large-Scale Video Prediction
Revisiting ResNets: Improved Training and Scaling Strategies
An autonomous debating system
Is Space-Time Attention All You Need for Video Understanding?
Deep Generative Modelling: A Comparative Review of VAEs, GANs, Normalizing Flows, Energy-Based and Autoregressive Models
Model Complexity of Deep Learning: A Survey
Knowledge Evolution in Neural Networks
ArXiv Weekly Radiostation：NLP、CV、ML 更多精选论文（附音频）

论文 1：Greedy Hierarchical Variational Autoencoders for Large-Scale Video Prediction

作者：Bohan Wu、Li Fei-Fei、Chelsea Finn 等
论文链接：https://arxiv.org/pdf/2103.04174.pdf

摘要：有能力泛化至多种场景的视频预测模型可以使得机器人等智能体通过规划执行多样化任务。虽然现有视频预测模型在小数据集上已经实现了满意的效果，但在大型多样化数据集上训练时会遇到严重的过拟合。在本文中，研究者引入了贪婪分层变体自动编码器（Greedy Hierarchical Variational Autoencoder, GHVAE），通过贪婪地训练分层自动编码器来学习高保真视频预测。与最新模型相比，GHVAE 在四个视频数据集上的预测性能提升了 17%-55%，在实际机器人任务上的成功率提升了 35%-40%。

GHVAE 的架构。

三模块（three-module）GHVAE 的训练流程和架构。

GHVAE 和 SVG 的视频预测测试性能对比。

推荐：该方法可以通过添加更多模块来单调地提升性能。

论文 2：Revisiting ResNets: Improved Training and Scaling Strategies

作者：Irwan Bello、William Fedus、Xianzhi Du 等
论文链接：https://arxiv.org/pdf/2103.07579.pdf

摘要：视觉模型的性能是架构、训练方法和扩展策略的综合结果。但是，研究往往只强调架构的变化。新架构是促成诸多进展的基础，但与新架构同时出现的通常还有训练方法和超参数变化——一些关键但很少公开的细节。此外，通过现代训练方法改进的新架构有时需要与使用过时训练方法的旧架构进行对比，例如 ImageNet 数据集上 Top-1 准确率为 76.5% 的 ResNet-50 架构。训练方法和扩展策略对流行的 ResNet 架构有哪些影响呢？近日，谷歌大脑和 UC 伯克利的研究者给出了他们的答案。

研究者调查了现今广泛使用的现代训练和正则化方法，并将其应用于 ResNet。结果表明，仅通过改进训练方法，典型 ResNet 架构的 ImageNet Top-1 准确率由 79.0% 提升至 82.2% (+3.2%)。通过两个微小且常用的架构改进：ResNetD 和 Squeeze-and-Excitation，准确率更是提升至 83.4%。

本研究中 ResNet-RS 与原版 ResNet、EfficientNet 的 Top-1 ImageNet 准确率变化曲线。

训练、正则化方法和架构变化的加性研究。

EfficientNet 和 ResNet-RS 的速度 - 准确率帕累托曲线。

推荐：ResNet 重回 SOTA 性能，改进训练方法和扩展策略就可以做到。

论文 3：An autonomous debating system

作者：Noam Slonim、Yonatan Bilu、Carlos Alzate 等
论文链接：https://www.nature.com/articles/s41586-021-03215-w

摘要：在 AI 打败专业国际象棋选手、围棋选手，并在多个电子游戏中大展身手之后，现在它冲着职业辩论选手来了！辩论是指对某个议题或主张，以言语 (https://zh.wikipedia.org/wiki/%E8%A8%80%E8%AA%9E) 为主要方式，为分辨不同立场之优劣而进行的一种争论方式。辩论需要精湛的口才或强大的逻辑思辩能力，且讲求反应。辩论比赛不是人人都能上，很多人甚至连吵完架都后悔没发挥好，那么 AI 呢？它能在辩论中发挥出怎样的成绩呢？

2012 年，IBM 海法研究院开始研发能够与人类辩论的 AI 系统——Project Debater。2018 年 6 月，Project Debater 打败人类专业辩手，并在 2019 年 2 月第二次亮相时，对阵 2016 年世界辩论决赛选手、欧洲辩论赛冠军 Harish Natarajan。虽然在这次人机 battle 中，Project Debater 未能获得胜利，但它展示出了优秀的构建论据以及决策能力。近日，IBM 关于 Project Debater 的一项研究登上了 Nature 封面，介绍了 Project Debater 的架构并进行了性能评估。

Project Debater 系统对比评估。

「Project Debater」与人类辩手的较量。

Project Debater 12 种底层技术的云 API。

推荐：Nature 封面：人类还在看提词器，AI 的辩论能力却出现了重大进展

论文 4：Is Space-Time Attention All You Need for Video Understanding?

作者：Gedas Bertasius、Heng Wang、Lorenzo Torresani
论文链接：https://arxiv.org/pdf/2102.05095.pdf

摘要：近年来，Transformer 已成为 NLP 领域中许多应用的主导方法，包括机器翻译、通用语言理解等。近日，谷歌推出了首个完全基于 Transformer 的视频架构 TimeSformer 。TimeSformer 在一些具有挑战性的动作识别基准（包括 Kinetics-400 动作识别数据集）上实现了最佳的性能。此外，与 3D 卷积神经网络（CNN）相比，TimeSformer 的训练速度大约快了 3 倍，而推断所需的计算量不足其十分之一。TimeSformer 的可扩展性使得在更长的视频片段上训练更大的模型成为可能。这为 AI 系统理解视频中更复杂的人类行为打开了大门，对需要理解人类复杂行为的 AI 应用来说是极为有益的。

研究中涉及的各种视频自注意力块。

研究中包含的五种空间 - 时间自注意力设计。

推荐：无需卷积，完全基于 Transformer 的首个视频理解架构 TimeSformer 出炉。

论文 5：Deep Generative Modelling: A Comparative Review of VAEs, GANs, Normalizing Flows, Energy-Based and Autoregressive Models

作者：Sam Bond-Taylor、Adam Leach、Yang Long 等
论文链接：https://arxiv.org/pdf/2103.04922v1.pdf

摘要：英国杜伦大学的研究者对变分自编码器（VAE）、生成对抗网络（GAN）、归一化流、基于能量以及自回归模型等深度生成模型进行了综述和对比，包括背后的原理以及当前 SOTA 进展和实现。

深度生成模型在训练和测试速度、参数效率、样本质量和多样性以及扩展至高分辨率数据方面的对比。

推荐：2021 最新深度生成模型综述论文。

论文 6：Model Complexity of Deep Learning: A Survey

作者：Xia Hu、Lingyang Chu、Jian Pei 等
论文链接：https://arxiv.org/pdf/2103.05127.pdf

摘要：模型复杂度是深度学习领域的一个基础问题，可以分为表达能力和有效模型复杂度。来自西蒙弗雷泽大学、麦克马斯特大学和微软研究院的研究者对深度学习中模型复杂度的最新研究进行了系统性综述，从模型框架、模型大小、优化过程和数据复杂度等四个方面回顾了当前研究进展。此外，他们还讨论了深度学习模型复杂度的应用，包括理解泛化能力以及模型优化、选择和设计。

表达复杂性和有效复杂性。

深度神经网络模型复杂性的细分研究。

推荐：44 页 Pdf、102 篇参考文献，裴健团队新作探索深度学习模型的复杂度。

论文 7：Knowledge Evolution in Neural Networks

作者：Ahmed Taha、Abhinav Shrivastava、Larry Davis
论文链接：https://arxiv.org/pdf/2103.05152v1.pdf

摘要：深度学习依赖大量标注或无标注数据的可用性。那么，问题来了：如何在相对较小的数据集上训练深度网络？为了解决这一问题，来自马里兰大学的研究者提出以一种进化启发（evolution-inspired）的训练方法来提升深度网络在较小数据集上的性能。这种知识演化方法将深度网络分为两个假说：拟合假说和重置假说。他们通过对重置假说的多次干扰，对拟合假说范畴内的知识实现迭代进化。该方法不仅可以提升性能，还能以更小的推理成本学习超薄网络。知识进化（KE）还能无缝地集成至普通和残差卷积网络，减轻过拟合和数据收集的负担。

研究者将深度网络分为拟合假说和重置假说。

减少 CNN 推理成本的 kernel-level convolutional-aware splitting (KELS) 方法。

研究中五个数据集以及相应的训练、验证和测试分割。

推荐：KE 在分类和度量学习基准方面均实现了 SOTA 结果。

ArXiv Weekly Radiostation

机器之心联合由楚航、罗若天发起的ArXiv Weekly Radiostation，在 7 Papers 的基础上，精选本周更多重要论文，包括NLP、CV、ML领域各10篇精选，并提供音频形式的论文摘要简介，详情如下：

本周 10 篇 NLP 精选论文是：

1. Learning Feature Weights using Reward Modeling for Denoising Parallel Corpora. (from Philipp Koehn, Sanjeev Khudanpur)

2. Learning Policies for Multilingual Training of Neural Machine Translation Systems. (from Philipp Koehn, Sanjeev Khudanpur)

3. Towards Socially Intelligent Agents with Mental State Transition and Human Utility. (from Song-Chun Zhu)

4. Inductive Relation Prediction by BERT. (from Xifeng Yan)

5. Evaluating Document Coherence Modelling. (from Hang Li, Timothy Baldwin)

6. ENCONTER: Entity Constrained Progressive Sequence Generation via Insertion-based Transformer. (from Ee-Peng Lim)

7. Advancing RNN Transducer Technology for Speech Recognition. (from Brian Kingsbury)

8. Improving Diversity of Neural Text Generation via Inverse Probability Weighting. (from Maosong Sun)

9. A Systematic Review of Reproducibility Research in Natural Language Processing. (from Ehud Reiter)

10. Refining Neural Networks with Compositional Explanations. (from Ying Chen)

本周 10 篇 CV 精选论文是：

1. You Only Look One-level Feature. (from Xiangyu Zhang, Jian Sun)

2. Monocular Quasi-Dense 3D Object Tracking. (from Trevor Darrell)

3. TransFG: A Transformer Architecture for Fine-grained Recognition. (from Alan Yuille)

4. Deep Wiener Deconvolution: Wiener Meets Deep Learning for Image Deblurring. (from Stefan Roth, Bernt Schiele)

5. PhotoApp: Photorealistic Appearance Editing of Head Portraits. (from Hans-Peter Seidel, Hanspeter Pfister, Wojciech Matusik, Christian Theobalt)

6. Detecting Human-Object Interaction via Fabricated Compositional Learning. (from Yu Qiao, Dacheng Tao)

7. Danish Fungi 2020 -- Not Just Another Image Recognition Dataset. (from Jiří Matas)

8. Revisiting ResNets: Improved Training and Scaling Strategies. (from Tsung-Yi Lin, Jonathon Shlens)

9. DivCo: Diverse Conditional Image Synthesis via Contrastive Generative Adversarial Network. (from Xiaogang Wang)

10. DefakeHop: A Light-Weight High-Performance Deepfake Detector. (from C.-C. Jay Kuo)

本周 10 篇 ML 精选论文是：

1. PredRNN: A Recurrent Neural Network for Spatiotemporal Predictive Learning. (from Philip S. Yu)

2. Training Networks in Null Space of Covariance for Continual Learning. (from Jian Sun)

3. Offline Reinforcement Learning with Fisher Divergence Critic Regularization. (from Rob Fergus)

4. EX-RAY: Distinguishing Injected Backdoor from Natural Features in Neural Networks by Examining Differential Feature Symmetry. (from Xiangyu Zhang)

5. OGB-LSC: A Large-Scale Challenge for Machine Learning on Graphs. (from Jure Leskovec)

6. Data-Driven Wireless Communication Using Gaussian Processes. (from Kai Chen, Shuguang Cui)

7. Adversarial Training is Not Ready for Robot Learning. (from Daniela Rus)

8. Near Optimal Policy Optimization via REPS. (from Peter Bartlett)

9. Mutual Information State Intrinsic Control. (from Yang Gao, Pieter Abbeel, Volker Tresp, Wei Xu)

10. Infinite-Horizon Offline Reinforcement Learning with Linear Function Approximation: Curse of Dimensionality and Algorithm. (from Peter L. Bartlett)

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2021-03-21，如有侵权请联系 cloudcommunity@tencent.com 删除

https