前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >谷歌大脑:使用强化学习,从头生成神经网络架构(论文)

谷歌大脑:使用强化学习,从头生成神经网络架构(论文)

作者头像
新智元
发布2018-03-26 16:04:50
1.2K0
发布2018-03-26 16:04:50
举报
文章被收录于专栏:新智元新智元

【新智元导读】深度学习的成功,使业内范式开始从特征设计转向架构设计。Google Brain 研究人员使用强化学习,从头开始生成神经网络架构。【论文地址:https://arxiv.org/pdf/1611.01578v1.pdf

摘要

作为一种强大而灵活的模型,神经网络在处理图像,语音,与语言习得方面收效良好。尽管当下已实现相关进展,但神经网络的设计仍然是研究的难题。本文采用递归神经网络对神经网络进行描述,并对递归神经网络进行强化学习训练,从而使基于验证集所生成的结构精确度实现最大化。基于CIFAR-10数据集,我们重新设计了一个新型网络结构。从试验集精确度方面来说,该结构与当前最优人工网络结构不相上下。该CIFAR-10模型的误差率为3.84,该结果与现有研究成果只相差0.1%,并且从速度上说,相比现有成果,速度上提升了1.2倍。

基于宾州树库数据集,我们的模型由一种新型的递归神经元构成,该神经元优于应用最为广泛的短期记忆神经元和其他现有的技术基线。在测试集上宾州树库语言模型的困惑度为62.4,相比于目前的技术成果,该困惑度值相对降低3.6。

引言

过去的几年,我们见证了深度神经网络在很多方面的应用都非常具有挑战性,如语音认知(Hinton等人,2012),图像识别 (Lecun等人,1998,Krizhevsky等人,2012),与机器翻译(Sutskever等人,2014;Bahdanau等人,2015;吴等人,2016),随着从特征设计到结构设计的范式转变的完成,从SIFT (Lowe,1999) 到HOG(Dalal与Triggs,2005),到AlexNet(Krizhevsky等人,2012),再到VGGNet (Simonyan与Zisserman,2014) 与GoogleNet(何等人,2016),虽然问题变得容易些,但是结构设计仍然需要大量的专业知识与投入时间

神经网络搜索示意图(图上关键词上右下左依次为)样品模型A与可能性P、训练儿童神经网络A来获取精确度R、计算P的梯度并以精确度R定义范围来更新控制器、控制器(递归神经网络)

本文展开对神经结构搜索的研究,并用梯度法来探索更好的结构(见图1),基于观察,我们发现,神经网络的结构与连通性能被定为典型的可变长度的字符串。因此,我们能够利用递归神经网络作为控制器来生成字符串从而建立一个神经网络。通过训练该神经网络,也称为"儿童神经网络",基于真实的数据可以获得验证集的精确度作为奖励信号,我们可以通过计算策略梯度来更新控制器。反复训练的结果就是利用控制器建立神经网络的可能性更大从而获得更高的精确度。也就是说,控制器将学会如何在反复训练中学会提高其搜索能力。

实验表明,神经搜索网络能够重新设计良好模型,该突破在于用其他方法不能实现,却在本实验中达成。用CIFAR-10进行图像识别,神经网络搜索发现一种新的Convnet模型,该模型优于大部分的人工神经网络。CIFAR-10模型的测试集误差率为3.84,速度上较现有最优模型提升了1.2倍。我们利用宾州数库建立语言模型,从而神经网络能设计出一种新的递归神经元,而该神经元也优于现有的递归神经网络和短期记忆网络。我们发现模型所设计的神经元所达到的测试集上宾州数库语言模型的困惑度为62.4。相比于目前的技术成果,该困惑度值相对降低3.6。

方法

接下来的章节,我们将首先描述一种简单的方法,利用递归网络结构生成卷积网络结构。我们将阐明如何利用策略梯度法训练递归神经网络,从而使神经网络样品的准确性实现最大化。在我们的核心方法中有几处提升,如形成跳跃联系来提高模型的复杂度,采用参数服务器加快训练速度。在本章节的最后一部分,我们的研究重点在于生成递归网络结构,这是本文的另一个要点。

图上关键词从左至右为:滤层数目,滤层高度,滤层宽度,步幅高度,步幅宽度,滤层数目,滤层高度...

图2:图示所研究的递归神经网络控制器如何对简单的卷积神经网络进行采样。该控制器可预测滤层高度,滤层宽度,步幅高度与步幅宽度与层次结构中滤层的数目并进行重复预测。每次预测都由 softmax 分类器执行,且预测结果作为下一步的输入参与预测。

第一层关键词从左至右依次为:参数服务器1,参数服务器2,参数服务器3;第二层关键词:控制器复制品1,控制器复制品2,控制器复制品3;第三层(蓝色,三个控制器下)均为:儿童复制品1,2,....m.

图3:神经网络搜索分布式训练。我们采用一系列S参数服务器用于存储与发送参数到K控制器复制品。然后每个控制器复制品对m神经网络进行取样,并行运行多个儿童模型。记录每个儿童模型的精度来计算关于θc的梯度,然后将结果发回至参数服务器。

N-1跳跃联系(框内关键词从左至右依次为)滤层数目、锚点、滤层高度、滤层宽度、步幅高度、步幅宽度、锚点、滤层数目、滤层高度

图4:控制器采用锚点与设定-选择注意形成跳跃联系

论文地址:https://arxiv.org/pdf/1611.01578v1.pdf

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-12-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
机器翻译
机器翻译(Tencent Machine Translation,TMT)结合了神经机器翻译和统计机器翻译的优点,从大规模双语语料库自动学习翻译知识,实现从源语言文本到目标语言文本的自动翻译,目前可支持十余种语言的互译。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档