谷歌新技术:神经优化器搜索,自动找到可解释的优化方法

AiTechYun

编辑:yuxiangyu

如今,深度学习模型已经部署在众多谷歌产品中,如搜索、翻译和照片等。而在训练深度学习模型时,优化方法的选择至关重要。例如,随机梯度下降在大多情况下都很有效,但更先进的优化器可能会更快,特别是在训练非常“深”的网络时。然而,由于优化问题的非凸性,为神经网络提供新的优化器十分具有挑战性。在Google Brain团队中,我们想看看是否可能用类似于AutoML如何用于发现新的有竞争力的神经网络架构的方法,自动化发现新的优化器的过程。

在论文“ Neural Optimizer Search with Reinforcement Learning ”中,我们提出了一种使用深度学习架构发现优化方法的方法 — 神经优化器搜索(Neural Optimizer Search)。使用这种方法,我们发现了两种新的优化器PowerSign和AddSign,它们在各种不同的任务和架构上具有竞争力,包括ImageNet分类和Google的神经机器翻译系统。为了帮助其他人从这项工作中受益,我们将这些优化器加入了Tensorflow。

神经优化器搜索利用一个递归神经网络控制器,它可以访问通常与优化相关的简单原语(primitives)列表。例如,这些原语包括梯度或梯度的运行平均值,并具有超过1*10 10 种可能组合的搜索空间。控制器然后为这个搜索空间中的候选优化器或更新规则生成计算图。

在论文中,提出的候选更新规则(U)用于在CIFAR10上训练一个子卷积神经网络几个周期,最终的验证准确性(R)作为奖励馈给控制器。控制器通过强化学习进行训练最大化所抽取的更新规则的验证准确性。这个过程如下图所示。

使用迭代过程来发现新优化器的神经优化器搜索示意图。

有趣的是,我们找到的这些优化器是可解释的。例如,在我们发布的PowerSign优化器中,每次更新都会比较梯度信号和其运行平均值,并根据这两个值是否一致来调整步长。这背后的直觉是,如果这些值一致,那么它对正确的更新方向更为确定,因此步长可以更大。我们还发现了一个简单的学习率衰减方案,线性余弦衰减( linear cosine decay),我们发现可以让收敛更快。

图表比较了余弦衰减,阶梯衰减和线性余弦衰减的学习率衰减函数。

神经优化搜索找到了几个优化器,它们的表现胜过了在小型ConvNet模型中常用的优化器。在一些可以很好迁移到其他任务优化器中,我们发现PowerSign和AddSign将最先进ImageNet mobile-sized模型的前1和前5的准确性提高了0.4%。他们在Google的神经机器翻译系统上也运行良好,英语对德语翻译任务的双语评估指标(BLEU)增加了0.7。

让我们感到兴奋的是,神经优化器搜索不仅可以提高机器学习模型的性能,还可能发现新的可解释的方程和发现。我们希望在Tensorflow中开源的这些优化器会对机器学习从业者有用。

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2018-03-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏小小挖掘机

推荐系统遇上深度学习(二十七)--知识图谱与推荐系统结合之RippleNet模型原理及实现

依次训练的方法主要有:Deep Knowledge-aware Network(DKN) 联合训练的方法主要有:Ripple Network 交替训练主要采用m...

33230
来自专栏AI科技大本营的专栏

AI 技术讲座精选:如何用 Keras 调试LSTM超参数解决时间序列预测问题

配置神经网络十分困难,因为并没有关于如何进行配置的好理论。 你必须用系统化的思维从动态结果和客观结果这两个角度探讨不同配置,设法理解给定预测建模问题。 在本教程...

69440
来自专栏机器学习算法与Python学习

【干货】深度学习知识体系思维导图,一图让你理解所有概念【高清下载】

深度学习是基于学习数据表示的更宽泛的机器学习方法家族的一部分,而不是特定某一种任务的算法。深度学习过程中可以有监督、半监督或无监督来进行。我们在这里试图在一个....

54020
来自专栏大数据智能实战

基于tensorflow实现AI图片鉴黄(NSFW)

       yahoo开源了用于检测图片是否包含不适宜工作场所(NSFW)内容的深度神经网络项目https://github.com/yahoo/open_n...

1.1K90
来自专栏人工智能头条

拓扑数据分析与机器学习的相互促进

15220
来自专栏人工智能

支持向量机入门简介

我们会通过分享有用的图书馆和资源而不是用复杂的数学知识来带你入门 SVM 。

41090
来自专栏深度学习之tensorflow实战篇

模型评估过程中:命中率/覆盖率

模型评估是模型中关键部分,一方面通过模型评估可以对模型进行进一步的优化,使模型性能够更准确;另一方面,通过模型评估可以看模型实际运行效果,对采取的维系策略的有效...

525110
来自专栏机器之心

ICLR 2018 | 斯坦福大学教授Christopher Manning提出全可微神经网络架构MAC:可用于机器推理

选自arXiv 作者:Drew A. Hudson、Christopher D. Manning 机器之心编译 参与:刘天赐、黄小天 现今,神经网络已在图像识别...

35380
来自专栏机器之心

教程 | 22分钟直冲Kaggle竞赛第二名!一文教你做到

选自微软机器学习博客 机器之心编译 参与:陈韵竹、路雪 本文介绍了如何使用微软 DVSM、利用迁移学习技术在 20 多分钟时间内达到 Kaggle 猫狗识别竞赛...

46880
来自专栏开心的学习之路

神经网络体系搭建(序)

神经网络这个概念并不陌生,但是从接触到现在这一个月的时间里,云里雾里,始终无法建立起完整的体系,能让自己顺畅地用神经网络解决一个具体问题,并进行有针对性的优化。...

37780

扫码关注云+社区

领取腾讯云代金券