前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >NeurIPS 2019杰出机器学习论文奖

NeurIPS 2019杰出机器学习论文奖

作者头像
代码医生工作室
发布2020-02-11 10:15:48
7710
发布2020-02-11 10:15:48
举报
文章被收录于专栏:相约机器人

NeurIPS奖项类似于奥斯卡奖在机器学习的世界中。每年都会提出大量论文,并颁发最佳论文。这是NeurIPS会议的第三十三届会议,于2019年12月8日至14日在温哥华举行。有趣的是,今年的会议有史以来提交的论文数量最多。今年提交了创纪录的6743次提交,这充分说明了机器学习行业的状况。实际上领域的增长如此之快,以至于今年会议的门票在不到12分钟的时间内就被抢购一空。

从提交的大量论文中,接受了1428篇论文,其中3篇被授予。通常分为三类:

  • 杰出论文奖 -会议最佳研究论文
  • 杰出新方向论文奖 –研究论文,为未来的研究奠定了基础。
  • 时间测试奖 – 10年前在NeurIPS上发表的研究论文,对社区产生了持久的影响。

该NeurIPS委员会由一些指导准则。最好的纸必须具有革命性,创造力并具有一定的优雅感,但是它也具有可行性,现实性和可复制性。它也不应过于复杂和低效。委员会所做的工作非常出色�

优秀论文奖

具有Massart噪声的半空间的与分布无关的PAC学习

这是一篇了不起的论文!最令印象深刻的是本文如何提出一种优雅的新方法来解决旧问题。简而言之,本文探讨了最有影响力的机器学习问题之一-学习未知的半空间问题。或者更确切地说,它着重于一种在具有Massart Noise的独立于分布的PAC模型中学习半空间的算法。解密一下。半空间是通过超平面将两个类别(正样本和负样本)分开的函数。基本上是二进制分类。它们也称为线性阈值函数(LTF)),可以这样表示:

其中符号(U)= 1,如果ü≥0和符号(U)= -1如果ü<0 ,瓦特是权重和X是特征。简而言之,它们是将数据分成两个空格的布尔函数。如果想从深度学习的角度进行观察,那也是Rosenblatt的Perceptron试图解决的问题。这里的主要问题是,如果数据已损坏,则结果取决于基础噪声模型。

解决此二进制分类问题的算法之一可能是近似正确(PAC)学习。该模型分析了学习代理是否以及在什么条件下会输出近似正确的分类。它是一种无监督的非参数统计技术,主要用于降维。

Massart Noise扩展了这种方法。这是通过以学习代理人未知的小概率翻转每个样本/记录的标签来实现的。标签是否翻转取决于系数n。该因子的值小于1/2。在这项研究中,多项式时间为 证明1 /ε具有等于Massart噪声水平加ε的额外风险。

在这里阅读完整的论文。

https://papers.nips.cc/paper/8722-distribution-independent-pac-learning-of-halfspaces-with-massart-noise.pdf

荣誉奖:

  • Besov IPM损失下GAN的非参数密度估计和收敛速度

https://papers.nips.cc/paper/9109-nonparametric-density-estimation-convergence-rates-for-gans-under-besov-ipm-losses

  • 快速准确的最小均方解算器

https://papers.nips.cc/paper/9040-fast-and-accurate-least-mean-squares-solvers

杰出新方向论文奖

统一收敛可能无法解释深度学习的泛化

如您所知,在Rubik's Code上热爱深度学习,因此本文直接引爆了。面对的是,当今神经网络已在不同行业用于各种问题。但是情况并非总是如此。实际上,许多行业仍对深度学习持怀疑态度喜欢标准的机器学习模型,因为它们是可以解释的。对此有充分的理由。这样的问题:“为什么在参数化的神经网络推广呢?”仍然打开。在大型实际训练数据集上进行训练后,神经网络如何在未曾见过的数据上表现良好?

品种泛化界的神经网络已发展为特定的原因。泛化界限是关于学习算法(在这种情况下是神经网络)的预测性能的陈述。基本上,神经网络被观察为一个过程,需要一些有限的训练数据作为输入并返回关于新的数据的预测的标签。由于我们假设所有数据(包括训练和评估)都具有固定分布,因此可以根据风险来衡量上述预测的质量。这意味着将预测与数据分布进行比较,风险代表其不兼容程度。概括起来,泛化界是缺陷上的一个概率界。

泛化边界的大多数基于统一收敛,可以这样定义。

如果给定任意小的正数ε,则可以找到一个数N,使得函数fn,fn + 1,fn + 2等的每一个,则函数序列fn均等地收敛于集合E上的限制函数f。在E的每个点x与f的差不超过ε。

现在,本文对这一假设提出了挑战。它提出了一系列实验,证明统一收敛不能解释深度学习中的泛化。该实验是在做MNIST三过paramterized模型和不同的训练集大小不同的超参数设置的测试数据集。所有模型都根据“ 随机梯度下降”进行训练。更准确地说,仅在100个维度的数据集上使用随机梯度下降法训练仅具有一个隐藏层(具有100k个神经元)的超参数化神经网络。现在,如果我们增加训练数据集的大小,则测试错误将减少并推广改善。然而,本文证明了决策边界不是简单的,并且当训练量增加时,均匀收敛会增加边界。这意味着统一收敛不能完全解释一般性,我们应该开发不受算法限制的技术。

在这里阅读完整的论文。

https://papers.nips.cc/paper/9336-uniform-convergence-may-be-unable-to-explain-generalization-in-deep-learning.pdf

荣誉奖:

  • 端到端:表示的梯度隔离学习

https://papers.nips.cc/paper/8568-putting-an-end-to-end-to-end-gradient-isolated-learning-of-representations

  • 场景表示网络:连续的3D-结构感知神经场景表示

https://papers.nips.cc/paper/8396-scene-representation-networks-continuous-3d-structure-aware-neural-scene-representations

时间考验

正则随机学习和在线优化的双重平均法

最终的奖项授予了在NeurIPS上发表的论文,该论文经受了时间的考验,并对机器学习社区产生了持久的影响。基本上,委员会概述了十年前被NeurIPS引用最多的论文列表。今年是Lin Xiao的论文,他的研究探索了现代机器学习的基本概念。本文提出了一种正则化对偶平均法(RDA),一种用于解决在线凸优化问题的优化技术。在线凸优化的目标与随机梯度下降相同–为了最大程度地减少损失,但是执行方式有所不同。本质上,它被模拟为游戏,玩家在每个时间戳,预测的权重向量和损失。

在本文之前,这种方法存在许多问题。本文可能产生的最大影响是优化方法- 批量优化。意思是,最初只有一部分样本可用。然后玩家在时间步长t中计算体重矢量。完成此操作后,将基于当前权重使用次梯度来计算损失。在下一时间步骤t + 1中重复该过程。

在这里阅读完整的论文。

https://papers.nips.cc/paper/3882-dual-averaging-method-for-regularized-stochastic-learning-and-online-optimization

结论

在本文中,探讨了NeurIPS会议上最有趣的论文。它们将在未来几年动摇机器学习的世界。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-12-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 相约机器人 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档