7 papers | NeurIPS 2019获奖论文揭晓；OpenAI刀塔2论文公布

机器之心

发布于 2019-12-23 18:44:10

4850

发布于 2019-12-23 18:44:10

本周既有 NeurIPS 2019 公布的杰出论文奖和经典论文奖论文，也有 MIT 联合 IBM 推出的使图像识别 SOTA 模型性能下降 40 多个点的 ObjectNet 数据集以及 OpenAI 击败 OG 战队的 Dota 2 智能体论文。

目录：

Distribution-Independent PAC Learning of Halfspaces with Massart Noise
Dual Averaging Methods for Regularized Stochastic Learning and Online Optimization
Reinforcement Learning Upside Down: Don't Predict Rewards -- Just Map Them to Actions
ObjectNet: A large-scale bias-controlled dataset for pushing the limits of object recognition models
Dynamic Convolution: Attention over Convolution Kernels
Dota 2 with Large Scale Deep Reinforcement Learning
Point-Voxel CNN for Efficient 3D Deep Learning

论文 1：Distribution-Independent PAC Learning of Halfspaces with Massart Noise

作者：Ilias Diakonikolas、Themis Gouleakis、Christos Tzamos
论文链接：https://papers.nips.cc/paper/8722-distribution-independent-pac-learning-of-halfspaces-with-massart-noise

摘要：本文作者研究了分布独立的半空间（half-space）下的 PAC 学习问题（在 Massart 噪声下）。具体而言，给定一组带标签样本（x, y），采样于 R^d+1 维的分布 D，如此以来，未带标签点 x 上的边缘分布是任意的，并且标签 y 通过一个未知半空间生成，而这个未知半空间被 Massart 噪声破坏，其中噪声率η<1/2。现在我们的目的是找出假设 h，它能够最小化误分类误差（misclassification error）

。对于这个问题，作者提出了误分类误差为η+ε的 poly (d, 1/ε) 时间算法。此外，他们还提供了证据证明其算法的误差保证（error guarantee）在计算上可能很难实现。作者表示，在他们的研究之前，即使是针对析取类（class of disjunction）而言，在这个模型中也没有出现高效的弱（独立分布）学习器。这种针对半空间（或甚至于析取而言）的算法在各项研究中一直是悬而未决的问题，从 Solan（1988）、Cohen（1997）到最近的 Avrim Blum 的 FOCS 2003 教程都强调了这一问题。

主要算法 1（with margin）。

主要算法 2（general case）。

推荐：这篇论文荣获了NeurIPS 2019杰出论文奖，研究了线性阈方程（linear threshold function）在二分类的，有着未知的、有边界标签噪声训练数据的情况。它解决了一个非常基础且长期开放的问题，并提出了一个高效的算法用于学习。这是机器学习核心领域的长期开放的问题，而这篇论文做出了巨大的贡献。其贡献在于：在 Massart 噪声下高效地学习半空间（half-space）。

论文 2：Dual Averaging Methods for Regularized Stochastic Learning and Online Optimization

作者：Lin Xiao
论文链接：https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/xiao10JMLR.pdf

摘要：经典论文奖的授予原则为「重要贡献、持久影响和广泛吸引力」，本届大会从 2009 年 NIPS 的 18 篇引用最多的论文中选出了持续影响力最高、对研究领域具有杰出贡献的研究。最终，今年的这一奖项授予 NIPS 2009 论文《Dual Averaging Method for Regularized Stochastic Learning and Online Optimization》及其作者，微软首席研究员 Lin Xiao。

推荐：Lin Xiao 曾就读于北京航空航天大学和斯坦福大学，自 2006 年起就职于微软研究院。

论文 3：Reinforcement Learning Upside Down: Don't Predict Rewards -- Just Map Them to Actions

作者：Juergen Schmidhuber
论文链接：https://arxiv.org/abs/1912.02875

摘要：在本文中，通过将传统 RL 颠倒过来，称之为 Upside Down RL（UDRL），作者将强化学习（RL）转换成了一种监督式学习（supervised learning，SL）。标准 RL 预测奖励（reward），而 UDRL 将奖励作为任务定义输入（task-defining input）、时间范围表示以及历史和预期未来数据的其他可计算函数。UDRL 学习将这些输入观察作为命令进行解读，并通过过去经验上的 SL 将它们映射到行动（或行动概率）上。通过「get lots of reward within at most so much time!」等命令，UDRL 可以泛化以实现高奖励或其他目标。此外，作者还提出了一种简单但通用的方法来教机器人模拟人类动作。首先录下模拟机器人当前行为的人类，然后让机器人通过 SL 学习将视频（作为输入命令）映射到这些行为中，最后令机器人泛化和模拟人类执行先前位置行为的视频。这种模拟-模拟器（Imitate-Imitator）概念或许可以真正地解释为什么生物进化导致了父母模拟子女的咿呀语（babbling）行为。

算法 A1。

算法 A2。

算法框架：模拟-模拟器（Imitate-Imitator）。

推荐：Juergen 新作表示强化学习不需要设置奖励。

论文 4：ObjectNet: A large-scale bias-controlled dataset for pushing the limits of object recognition models

作者：Andrei Barbu、David Mayo、Julian Alverio、Julian Alverio 等
论文链接：https://objectnet.dev/objectnet-a-large-scale-bias-controlled-dataset-for-pushing-the-limits-of-object-recognition-models.pdf
项目地址：https://objectnet.dev/

摘要：图像识别是计算机视觉中最为成熟的领域了。从 ImageNet 开始，历年都会出现各种各样的新模型，如 AlexNet、YOLO 家族、到后面的 EfficientNet 等。这些模型都在刷新着各种图像识别领域的榜单，创造更令人惊讶的表现。而近日，MIT 和 IBM 的研究者发现，在他们建立的一个名为 ObjectNet 的数据集上，即使是现在的 SOTA 模型都会「吃瘪」。这一新的数据集能够让模型的性能下降了 40 多个点。最终，研究者们公开了这个数据集，并鼓励人们开发更好的模型来解决问题。这一数据集相关的论文已经被 NeurlPS 2019 大会接收为 Poster 论文，读者们可以参考这个有趣的研究，看看自己的图像识别模型性能如何。

ImageNet 图像（左侧）和 ObjectNet 图像的对比。可以看出 ObjectNet 图像中的目标有各种奇怪的语义。

在 ImageNet 上训练，并在 ImageNet 测试集或 ObjectNet 做验证的结果，很明显，不同的网络的性能都会大幅降低。

ResNet-152 在 ImageNet 上做预训练，并在 ObjectNet – 113 做测试的结果。

推荐：近日，MIT 联合 IBM 研究团队提出了一个数据集，在它上面测试的图像识别 SOTA 模型的性能下降了 40 多个点。

论文 5：Dynamic Convolution: Attention over Convolution Kernels

作者：Yinpeng Chen、Xiyang Dai、Mengchen Liu、Dongdong Chen、Lu Yuan、Zicheng Liu
论文链接：https://arxiv.org/pdf/1912.03458.pdf

摘要：轻量级卷积神经网络（light-weight convolutional neural network）因其较低的计算预算而限制了 CNN 的深度（卷积层数）和宽度（通道数）而导致性能下降，表示能力也会受到限制。为了解决这个问题，在本文中，微软的研究者们提出了动态卷积，这种新的设计可以在不增加网络深度或宽度的情况下增加模型复杂度（model complexity）。动态卷积没有在每层上使用单个卷积核，而是根据注意力动态地聚合多个并行卷积核，这些卷积核依赖于输入。得益于小的内核尺寸，集合多个内核不仅在计算上很高效，而且由于这些内核通过注意力以非线性方式进行聚合，因此具有更强的表示能力。通过在 SOTA 架构 MobilenetV3-Small 上简单地使用动态卷积，ImageNet 分类的 top-1 准确度提高了 2.3％，而 FLOP 仅增加了 4％，在 COCO 关键点检测上实现了 2.9 的 AP 增益。

动态卷积层架构。

DY-CNN（动态卷积神经网络）和 CNN 在 ImageNet 分类上的结果对比。

推荐：与传统静态卷积（每层单个卷积核）相比，本文提出的动态卷积显著提升了表示能力，额外的计算成本也很小，因而对高效的 CNN 更加友好。这种动态卷积还可以容易地整合入现有 CNN 架构中。

论文 6：Dota 2 with Large Scale Deep Reinforcement Learning

作者：Christopher Berner、Greg Brockman、Brooke Chan、Brooke Chan 等
论文链接：https://cdn.openai.com/dota-2.pdf

摘要：要为这样复杂的环境创造合适的智能体，关键是要将现有的强化学习系统扩展至前所未有的规模，这需要在数以千计的 GPU 上执行几个月的训练。为了实现这一目标，OpenAI 构建了一个分布式的训练系统，训练出了名为 OpenAI Five 的 Dota 2 游戏智能体。2019 年 4 月，OpenAI Five 击败了一支 Dota 2 世界冠军战队（OG 战队），这是首个击败电子竞技游戏世界冠军的 AI 系统。OpenAI 也将该系统开放给了 Dota 2 社区进行对战试玩；在超过 7000 局游戏中，OpenAI Five 的胜率为 99.4%。OpenAI 表示，训练过程还面临着另外一个难题：游戏环境和代码一直在不断升级和变化。为了避免在每次变化之后再从头开始训练，他们开发出了一套工具，能以最低的性能损失继续完成训练——OpenAI 将其称之为「手术（surgery）」。在超过 10 个月的训练过程中，OpenAI 大约每两周执行一次手术。这套工具让 OpenAI 可以经常性地改进他们的智能体，这只需要很短的时间——比典型的从头开始训练方法要短得多。随着 AI 系统解决的问题越来越大，越来越难，进一步研究不断变化的环境和迭代开发就显得至关重要了。

简化版的 OpenAI Five 模型架构。

系统概况：该训练系统由 4 种主要类型的机器构成。

推荐：击败 OG 战队的 Dota 2 智能体究竟是怎样构建的？OpenAI 公开研究论文。

论文 7：Point-Voxel CNN for Efficient 3D Deep Learning

作者：Zhijian Liu、Zhijian Liu、Zhijian Liu、Zhijian Liu
论文链接：https://arxiv.org/pdf/1907.03739.pdf

摘要：我们发现之前的工作竟需要花 80% 以上的时间进行对数据的不规则访问以作为卷积运算的准备工作，而实际计算所占的时间比例却非常低，这无疑造成了基于点云的深度学习方法往往比较低效。为解决这样的问题，我们提出了 Point-Voxel CNN（PVCNN）来实现高效的三维深度学习。PVCNN 利用点云的形式来存储数据，以减小内存的消耗，而又选择栅格化的形式进行卷积，这样可以避免处理点云稀疏性所带来的巨大的非规则数据访问开销，很好地提升局部性。这种取长补短的设计使我们的 PVCNN 在内存和计算上都十分高效：我们只用十分之一的内存就可以取得远高于 volumetric CNN baseline 的准确率，而对比于多个基于点云直接进行深度学习的方法，我们又可以得到平均 7 倍的实测加速。

在 ShapeNet 数据集上，我们的完整通道数模型可以以 2.7 倍的实测加速达到略好于 PointCNN 的性能，同时我们的内存占用也减小了 1.6 倍；而即便我们将通道数缩小四倍，我们的模型也可以在达到 PointNet++, DGCNN 等复杂方法性能的同时比 PointNet（此前这个领域中被认为最为精简、高效的模型）快 1.9 倍、省 1.9 倍内存。

PVCNN 在边缘设备上以低延迟进行高效地运行。完整的 PVCNN 可以在 NVIDIA Jetson AGX Xaviers 上以每秒 20.2 个物体的速度运行，而四分之一宽度版本的小模型在价格仅 99 美元的 NVIDIA Jetson Nano 上也可以达到接近每秒 20 个物体的速度。

推荐：随着三维深度学习越来越成为近期研究的热点，基于栅格化的数据处理方法也越来越受欢迎。但这种处理方法往往受限于高分辨下巨大的内存和计算开销，因此麻省理工学院 HAN Lab 的研究者提出利用 Point-Voxel CNN 来实现高效的三维深度学习，同时能够避免巨大的数据访问开销并很好地提升了局部性。该论文已被 NeurIPS 2019 接收为 Spotlight Presentation。

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2019-12-15，如有侵权请联系 cloudcommunity@tencent.com 删除

机器学习