【业界】 | 谷歌 NIPS 2017 23篇论文:从注意力到价值预测网络(附论文下载)

【导读】2017年度神经信息处理系统大会(NIPS 2017)将于12 月份在美国长滩举行,本届NIPS共收到 3240 篇论文投稿,录用 678 篇,录用率为 20.9%;其中包括 40 篇口头报告论文和 112 篇 spotlight 论文。谷歌是大赢家,共中了23篇,包括之前备受关注的《Attention is All you Need》和Hinton的《Dynamic Routing between Capsules》,此次专知介绍这23篇的前8篇,点击文末「阅读原文」下载全部论文。

▌论文介绍

1. 基于元学习视角的物品冷启动推荐(A Meta-Learning Perspective onCold-Start Recommendations for Items)

作者:Manasi Vartak, Hugo Larochelle, Arvind Thiagarajan

摘要:矩阵分解是物品推荐中用到的最重要的算法之一,但是这种方法面临着很重要的冷启动问题。这种冷启动问题推文推荐中显得尤为严重,因为这些推文都是先后到达的。这篇文章中,我们提出使用元学习策略来解决连续到到物品的冷启动问题。我们提出了两种神经网络结构来实现我们的元学习策略。第一种结构学习一个线性分类器,分类器的权重有物品历史决定。第二种结构学习一种偏置可被调整的神经网络。我们在真是世界的tweet推荐中验证了我们的实验。在twitter实验中我们提出的方法大幅度超过了基于矩阵分解的方法同时也基于产品推荐的推文推荐。

2. 提升生成模型(AdaGAN: Boosting GenerativeModels)

作者:Ilya O. Tolstikhin, Sylvain Gelly, Olivier Bousquet, Carl-Johann SIMON-GABRIEL, Bernhard Schölkopf

摘要:生成对抗网络(GaN)(Goodfellow et al.,2014)是复杂的数据如图像训练生成模型的有效方法。然而,它们却很难培养,可苦于缺少模式,模型不能够产生一定区域的空间问题的例子。我们提出了一个迭代过程,称为adagan,其中的每一步我们添加一个新的组件到一个混合模型的运行在加权样本的阿甘算法。这是灵感的Boosting算法,其中许多潜在的弱势个体贪婪地聚集形成一个强的预测综合预测。我们证明了这样的一个增量procedureleads收敛在一个有限数量的步骤每个步骤的真实分布是最优的,并且收敛以指数速度否则。我们alsoillustrate实验,本程序解决的问题missingmodes。

3. 基于仿射不变的在线优化方法(Affine-Invariant Online Optimization)

作者:Tomer Koren, Roi Livni

摘要:我们提出了一个新的基于仿射不变的在线优化方法叫做Online Lazy Newton。Online Lazy Newton的遗憾是独立的条件左右:算法的性能取决于问题的最佳预处理回顾与内在的维度。作为一个应用算法,我们展示如何在Lazy Newton可以用来实现无悔优化的低秩专家问题,实验结果表明提出的方法通过使用√r因素超过以前最知名的束缚和解决Hazan等人提出的一个公开的问题。

4. Approximation and Convergence Properties of Generative Adversarial Learning

作者:Shuang Liu, Olivier Bousquet, Kamalika Chaudhuri

摘要:对抗生成网络通过联合的优化生成器和判别器这两个选手游戏的目标来学习数据的分布形式。然而,尽管他们在实践中取得很多成功应用,但关于它们是如何接近目标分布的两个非常基本的问题仍然没有得到解答。首先,不知道如何限制鉴别器族是如何影响近似质量的。其次,虽然已经提出了一些不同的目标函数,但是在分布收敛的各种概念下,什么时候目标函数向全局最小值的收敛到目标分布我们并不了解。在本文中,我们通过定义对抗差异的概念,在广泛和统一的环境中解决这些问题,其中包括最近提出的一些目标函数。我们表明,如果目标函数是一些附加条件的对抗分歧,那么使用受限制的鉴别器族有一个时刻匹配效应。此外,我们证明了对于严格对抗分歧的目标函数,目标函数的收敛意味着收敛性弱,从而推广了以前的结果。

5. Attention is All You Need

作者:Ashish Vaswani, Noam Shazeer, Niki Parmar, Llion Jones, Jakob Uszkoreit, Aidan N. Gomez, Łukasz Kaiser

摘要:在编码器-解码器配置中,显性序列显性转导模型(dominant sequencetransduction model)基于复杂的RNN 或 CNN。表现最佳的模型也需通过注意力机制(attention mechanism)连接编码器和解码器。我们提出了一种新型的简单网络架构——Transformer,它完全基于注意力机制,彻底放弃了循环和卷积。两项机器翻译任务的实验表明,这些模型的翻译质量更优,同时更并行,所需训练时间也大大减少。我们的模型在 WMT 2014 英语转德语的翻译任务中取得了 BLEU 得分 28.4 的成绩,领先当前现有的最佳结果(包括集成模型)超过 2 个 BLEU 分值。WMT 2014 英语转法语翻译任务中,在 8 块 GPU 上训练了 3.5 天之后,我们的模型获得了新的单模型顶级 BLEU 得分 41.0,只是目前文献中最佳模型训练成本的一小部分。我们表明 Transformer 在其他任务上也泛化很好,把它成功应用到了有大量训练数据和有限训练数据的英语组别分析上。

6. Avoiding discrimination through causal reasoning

作者:Niki Kilbertus, Mateo Rojas Carulla, Giambattista Parascandolo, Moritz Hardt, Dominik Janzing, Bernhard Schölkopf

摘要:最近关于机器学习公平性的工作集中在各种统计歧视标准以及它们在它们之间如何权衡。这些标准中的大部分都是观察性的:它们仅依赖于预测变量,以及具有受保护属性、特征和结果的联合分布。观测标准虽然便于处理,却有着严重的内在局限性,使得它们无法最终解决公平问题。除了观察标准,我们用因果推理的语言来构建基于受保护属性的歧视问题。这中观点将注意力从“什么是正确的公平标准?转移到“我们想要假设关于因果数据生成过程是什么?通过因果关系的视角,我们做出了一些贡献。首先,我们清楚地阐明观察标准失败的原因,从而将之前的意见内容形式化。其次,我们的方法暴露了以前忽略的细节,以及为什么它们是这个问题的根本。最后,我们提出了自然的因果非歧视标准,并开发了满足标准的算法。

7. Bridging the Gap Between Value and Policy Based Reinforcement Learning

作者:Ofir Nachum, Mohammad Norouzi, Kelvin Xu, Dale Schuurmans

摘要:在熵正则化的基础上,基于softmax时间一致性与策略最优性之间的关系,建立了基于价值和策略的强化学习(RL)之间的新的联系。具体而言,我们表明,softmax一致的行动价值满足一个强的一致性属性与最佳的熵正则化策略概率沿任何行动序列,无论来源。从这个观察,我们开发了一种新的RL算法,路径一致性学习(PCL),最小化从在线和离线的痕迹中提取的多步骤动作序列测量的不一致性。我们随后通过展示如何使用单一模型来表示策略和softmax行为值来加深关系。除了不需要单独的批评者之外,这种统一体现了政策梯度如何通过自上而下的政策数据自我引导来稳定。实验评估表明,这两种算法都可以在几个基准测试任务中显着地胜过强大的演员评论和Q学习基线。

8. Dynamic Routing between Capsules

作者:Sara Sabour, Nicholas Frosst, Geoffrey E. Hinton

摘要:Capsule 是一组神经元,其活动向量(activity vector)表示特定实体类型的实例化参数,如对象或对象部分。我们使用活动向量的长度表征实体存在的概率,向量方向表示实例化参数。同一水平的活跃 capsule 通过变换矩阵对更高级别的 capsule 的实例化参数进行预测。当多个预测相同时,更高级别的 capsule 变得活跃。我们展示了判别式训练的多层 capsule 系统在 MNIST 数据集上达到了最好的性能效果,比识别高度重叠数字的卷积网络的性能优越很多。为了达到这些结果,我们使用迭代的路由协议机制:较低级别的 capsule 偏向于将输出发送至高级别的 capsule,有了来自低级别 capsule 的预测,高级别 capsule 的活动向量具备较大的标量积。

9. 过滤变分目标(Filtering Variational Objectives)

作者:Chris J. Maddison, John Lawson, George Tucker, Mohammad Norouzi, Nicolas Heess, Andriy Mnih, Yee Teh, Arnaud Doucet

10. 插值策略梯度:基于在策略和离策略梯度融合的强化学习(Interpolated Policy Gradient: Merging On-Policy and Off-Policy Gradient Estimation for Deep Reinforcement Learning)

作者:Shixiang Gu, Tim Lillicrap, Richard E. Turner, Zoubin Ghahramani, Bernhard Schölkopf, Sergey Levine

11. 使用随机矩阵理论学习学习动态深度神经网络(Investigating the learning dynamics of deep neural networks using random matrix theory)

作者:Jeffrey Pennington, Samuel Schoenholz, Surya Ganguli

12. 使用循环神经网络学习层次信息流(Thalamus Gated Recurrent Modules)

作者:Danijar Hafner, Alex Irpan, James Davidson, Nicolas Heess

13. 基于语言的早期视觉处理建模(Modulating early visual processing by language)

作者:Harm de Vries, Florian Strub, Jeremie Mary, Hugo Larochelle, Olivier Pietquin, Aaron C. Courville

14. 基于度量活动成本的多臂赌博机问题(Multi-Armed Bandits with Metric Movement Costs)

作者:Tomer Koren, Roi Livni, Yishay Mansour

15. 基于非线性矩阵理论的深度学习(Nonlinear random matrix theory for deep learning)

作者:Jeffrey Pennington, Pratik Worah

16. 关于黑盒反向传播和雅可比感知(On Blackbox Backpropagation and Jacobian Sensing)

作者:Krzysztof M. Choromanski, Vikas Sindhwani

17. PASS-GLM:基于多项式近似充分统计的可扩展贝叶斯广义线性模型推断(PASS-GLM: polynomial approximate sufficient statistics for scalable Bayesian GLM inference)

作者:Jonathan Huggins, Ryan P. Adams, Tamara Broderick

18. 基于低方差,无偏梯度估计的离散因变量模型(REBAR: Low-variance, unbiased gradient estimates for discrete latent variable models)

作者:George Tucker, Andriy Mnih, Chris J. Maddison, John Lawson, Jascha Sohl-Dickstein

19. 减少梯度方差再参数化(Reducing Reparameterization Gradient Variance)

作者:Andrew Miller, Nick Foti, Alexander D'Amour, Ryan P. Adams

20. 使用随机梯度下降学习网络的共轭分类(SGD learns the conjugate class of the network)

作者:Amit Daniely

21. SVCCA:基于奇异值典型关联分析的深度理解和提高(SVCCA: Singular Vector Canonical Correlation Analysis for Deep Understanding and Improvement)

作者:Maithra Raghu, Justin Gilmer, Jason Yosinski, Jascha Sohl-Dickstein

22. 随机正交向量不可思议的有效性(The Unreasonable Effectiveness of Random Orthogonal Embeddings)

作者:Krzysztof M. Choromanski, Mark Rowland, Adrian Welle

23. 价值预测网络(Value Prediction Network)

作者:Junhyuk Oh, Satinder Singh, Honglak L

请关注专知公众号

  • 后台回复“nipsG” 就可以获取23篇论文pdf下载链接

原文发布于微信公众号 - 专知(Quan_Zhuanzhi)

原文发表时间:2017-11-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI2ML人工智能to机器学习

概率估值的光滑(Smoothing)

一般通过频率(Frequency / Counting)来估值的过程中,存在需要光滑(Smoothing)的问题, 这个问题在自然语言处理或者贝叶斯算法中尤为突...

3352
来自专栏机器学习算法与Python学习

GBDT入门教程之原理、所解决的问题、应用场景讲解

GBDT (Gradient Boosting Decision Tree) 又叫 MART (Multiple Additive Regression Tr...

4175
来自专栏AI科技评论

开发 | 这六段代码隐藏着深度学习的前世今生!

AI科技评论按:本文作者Emil Wallner用六段代码解释了深度学习的前世今生,这六段代码覆盖了深度学习几十年来的重大创新和突破,作者将所有代码示例都上传了...

3477
来自专栏钱塘大数据

聚类分析—大数据时代数据挖掘的关键突破口

导读:人类文明已迈入大数据时代,得“数据”者得天下,而数据处理技术是必不可少的,那么说到大数据分析中的应用,最常用的经典算法之一就是聚类法,这是数据挖掘采用的起...

3998
来自专栏自然语言处理

程序员眼中的统计学3

令19名数学家惊喜的是,虽然他们所掌握的那些高深数学知识在现实生活中似乎派不上多大用场,但竟然出人意料地在赌场上显现出了巨大的威力!据悉,19名数学家参与的大多...

731
来自专栏大数据挖掘DT机器学习

【接上篇】从白富美相亲看特征预处理与选择(下)

作者:龙心尘 &&寒小阳 出处: http://blog.csdn.net/han_xiaoyang/article/details/50503115 ...

3364
来自专栏个人分享

最大熵的Java实现

这是一个最大熵的简明Java实现,提供训练与预测接口。训练采用GIS训练算法,附带示例训练集。本文旨在介绍最大熵的原理、分类和实现,不涉及公式推导或其他训练算法...

1763
来自专栏iOSDevLog

ML任务

952
来自专栏大数据挖掘DT机器学习

R语言实现混合模型

普通的线性回归只包含两项影响因素,即固定效应(fixed-effect)和噪声(noise)。噪声是我们模型中没有考虑的随机因素。而固定效应是那些可预测因素,而...

8956
来自专栏深度学习入门与实践

【深度学习Deep Learning】资料大全

  最近在学深度学习相关的东西,在网上搜集到了一些不错的资料,现在汇总一下: Free Online Books Deep Learning66 by Yosh...

6639

扫码关注云+社区

领取腾讯云代金券