ICLR 2018最佳论文重磅出炉!Adam新算法、球形CNN等受关注


新智元报道

作者:小潘

【新智元导读】今天,ICLR官网公布了ICLR 2018的最佳论文,一共三篇。这些论文在被ICLR接收之后持续得到讨论,包括提出新的Adam变体算法,处理球面图像的问题的球形CNN,learning to learn框架的持续性适应问题等。本文带来详细解读。

关于Adam算法收敛性及其改进方法的讨论

最近提出的一些随机优化方法已经成功地应用到了神经网络训练任务中,如RMSPROP、ADAM、ADADELTA、NADAM等。这些方法都是基于梯度更新的算法,在更新的过程中,利用了历史梯度平方的指数移动平均值的开方进行缩放。而根据观察,在许多的应用中,如输出空间比较宽泛的情况,这些算法无法收敛到最优解,或是在非凸问题中的临界点。文中证明了收敛失败的原因是,算法中使用了指数移动平均值。文中举了一个简单的例子来证明,即使是简单的凸优化问题,Adam也无法收敛到最优解,并在文中描述了Adam算法分析中以往存在的关键问题。分析表明,通过将这些算法与历史梯度的“长时记忆”相结合,可以解决收敛问题,并提出了新的Adam变体算法,该算法不仅可以解决手链问题,也能轧线经验性能。

本研究的贡献:

  1. 通过一个简单的凸优化问题阐述了TMSprop和Adam中使用的指数移动平均是如何导致不收敛的。而且文中的分析可以扩展到其他的指数移动平均打的方法上如Adadelta和NAdam。
  2. 为了保证算法的收敛,文中使用历史梯度的“长时记忆”。并指出了在以往论文Kingma&Ba(2015)中关于Adam收敛性证明过程中存在的问题。为了解决这个问题,文中提出了Adam的变体算法,算法在使用历史梯度的“长时记忆”的情况下,并没有增加算法的时间复杂度与空间复杂度。此外,文中还基于Kingma&Ba(2015)给出了Adam算法收敛性的分析。
  3. 提供了Adam算法变体的实验证明,结果表明,在某些常用的机器学习问题中,这个变体的表现算法相似或优于原始算法。

实验结果:

如图1所示,在一个简单的一维凸问题上,对Adam和AdamSRAD的性能比较,受到了非收敛性的启发。前两个图是用于在线设置,最后一个是用于随机设置。

图1

如图2所示,在逻辑回归、前馈神经网络和CIFARNET中对Adam和AMSGRAD的性能比较。上面一行显示了ADAM和AMSGRAD在逻辑回归(前两个图)和隐藏层=1的前馈神经网络(右图)的性能。在最下面一行中,这两图比较了Adam和阿AMSGRAD训练和测试,并基于CIFARNET进行了比较。

图2

球形卷积神经网络(Spherical CNNs)

卷积神经网络(CNN)可以很好的处理二维平面图像的问题。然而,对球面图像进行处理需求日益增加。例如,对无人机、机器人、自动驾驶汽车、分子回归问题、全球天气和气候模型的全方位视觉处理问题。将球形信号的平面投影作为卷积神经网络的输入的这种天真做法是注定要失败的,如下图1所示,而这种投影引起的空间扭曲会导致CNN无法共享权重。

图1

这篇论文中介绍了如何构建球形CNN的模块。我们提出了利用广义傅里叶变换(FFT)进行快速群卷积(互相关)的操作。通过傅里叶变换来实现球形CNN的示意图如下所示:

实验结果:

  1. 文中使用官方指标评估提出的训练模型,并与每个类别的前三个最优模型进行比较,结果如表1所示。除了精度和F1@N,本文提出的模型排名第三,它是每个其他指标上的都处于领先位置。主要的竞争对手,Tatsuma_ReBGG和Furuya_DLAN使用对SHREC17任务专门设计的特征和网络结构。考虑到文中提出的模型的任务不可知的体系结构和模型中使用的有损的输入表示,可以将模型的性能解释为对球形CNN的有效性的强大的经验支持。

表1

2. 以RMSE作为指标,将提出方法与一些其他的方法做比较,如表2所示。从表中可以看出,文中提出的算法优于所有基于内核的方法,以及在排序Coulomb矩阵上训练的MLP算法。只有基于随机Coulomb矩阵训练的MLP才能获得更优的效果。然而,对随机排列的充分抽样随着N呈指数增长,因此这种方法不太可能在大的数据上进行扩展。

表2

结论

这篇论文介绍了球形CNN,并在两个重要的学习问题上对提出算法进行了评测。此外,文中定义了S2和SO(3)的互相关,并分析了它们的属性,进而实现了一个通用的RRT相关算法。实验的数值结果证实了该算法的稳定性和准确性,即使在深度网络上依然有效。此外,我们已经证明了在不需要对特征和模型调优有很高要求的情况下,球形CNN可以有效地推广到整个旋转过程中,并在三维模型识别和分子能量回归方面取得接近最先进的结果。

对于类似3D模型识别这种三维任务,我们相信可以通过将SO3扩展到roto-平移组SE3来实现进一步的改进。球形CNN的发展是朝着这个方向迈出的重要的第一步。也许,这个球形的CNN重要的应用场景是对全方位视觉问题的处理。尽管目前在公共数据库中,全向图像数据非常少,但在无人机、机器人和自动驾驶汽车中,全方位传感器的普及使这项工作具有非凡的意义。

在非固定和竞争环境中通过元学习进行持续性适应

在非平稳环境中不断学习和适应有限经验的能力是计算机通往真正的人工智能的重要里程碑。此文提出了“learning to learn”框架的持续性适应问题。通过设计一种基于梯度的元学习算法来对动态变化和对抗性场景的进行适应。此外,文中还设计了一种基于多智能体(multi-agent)的竞争环境:RoboSumo,并定义了适应性迭代游戏,用于从不同方面测试系统的持续适应性能。实验证明,元学习比在few-shot状态下的反应基线具有更强的适应能力,且适应于进行multi-agent学习和竞争。

实验中使用了三种模型作为智能体(agent),如图1(a) 所示。它们在解剖学上存在差异:腿的数量,位置,以及对大腿和膝关节的限制。图1(b)表示非平稳运动环境。应用于红颜色的腿的扭矩是由一个动态变化的因素决定的。(c)用于表示 RoboSumo竞争环境。

图1

实验结果:

  1. 下图表示在一轮包含多局的迭代适应游戏中,一个agent与其对手竞争。如果它在一轮中赢了多局(用颜色来表明胜败),那么它就赢了一局。agent和他们的对手可以在不断地改变策略。

图2

2. 在迭代游戏中,轮数和从对手学习到的结果如图3所示,从图中可以看出,当每一轮的迭代次数超过50次时,通过技术追踪的适应问题就变成了“测试的同时进行学习”的问题,除此之外,它可以与一些训练时从未见过的对手进行竞争。在few-shot和标准两种学习制度下,元学适应策略的执行结果几乎都是相同的。这表明,元学习策略在训练时可以学到一种特殊的偏置,使它能够从有限的经验中表现得更好,但也限制了它利用更多数据的能力。

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2018-04-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏DT数据侠

看脸时代,“颜值”竟然都有了计算方法!

“魔镜魔镜告诉我,谁是世界上最美的女人?”这句伴随童年的话也有现实版哦~神经网络可以预测人脸颜值,这方面也出现了不少研究。今年年初华南理工大学的研究者发布论文,...

1360
来自专栏人工智能LeadAI

机器学习面试之有必要手推SVM吗?

01 单刀直入,先回答有必要吗? 最近和许多朋友交流,发现当前机器学习应聘时,手推SVM这道题已经越来越像快速排序一样,成为必点菜了。 那么,手推SVM是不是必...

4705
来自专栏AI科技评论

学界 | 谷歌团队提出应用于噪声语音识别的在线序列到序列模型

近日谷歌团队发布了一篇关于语音识别的在线序列到序列模型,该模型可以实现在线实时的语音识别功能,并且对来自不同扬声器的声音具有识别功能。 以下内容是 AI 科技评...

3288
来自专栏ATYUN订阅号

【学术】以精确性来提高对机器学习的信任

传统的机器学习工作流程主要集中在模型训练和优化上,最好的模型通常是通过像精确或错误这样的性能度量来选择的,我们倾向于假定一个模型如果超过了这些性能标准的某些阈值...

2957
来自专栏专知

【干货】Google GAN之父Ian Goodfellow ICCV2017演讲:解读生成对抗网络的原理与应用

【导读】当地时间 10月 22 日到10月29日,两年一度的计算机视觉国际顶级会议 International Conference on Computer V...

4905
来自专栏AI科技评论

CVPR 2018 中国论文分享会之 「GAN 与合成」

AI 科技评论按:2018 年 5 月 11 日,由微软亚洲研究院、清华大学媒体与网络技术教育部-微软重点实验室、商汤科技、中国计算机学会计算机视觉专委会、中...

1332
来自专栏腾讯技术工程官方号的专栏

NIPS2018 | 腾讯AI Lab入选20篇论文,含2篇Spotlight

? 被誉为神经计算和机器学习领域两大顶级会议之一的NIPS于近日揭晓收录论文名单,此次为第32届会议,将于 12 月 3 日至 8 日在加拿大蒙特利尔举办。 ...

13.5K3
来自专栏达观数据

这个男人嫁还是不嫁?懂点朴素贝叶斯(Naive Bayes)原理让你更幸福

1772
来自专栏Python中文社区

Python人工智能鉴黄师的自我修养

專 欄 ❈LucasX,Python中文社区专栏作者。 ❈ 前阵子在设计一个智能黄反识别的方案,查阅了已有Paper,结合自己的一点想法,现对不良图像的识别进...

3518
来自专栏机器之心

ACM MM | 中山大学等提出HSE:基于层次语义嵌入模型的精细化物体分类

作者:Tianshui Chen、Wenxi Wu、Yuefang Gao、Le Dong、Xiaonan Luo、Liang Lin

1222

扫码关注云+社区

领取腾讯云代金券