专栏首页AI科技评论EMNLP 2019 | 4块GPU搜索1天,神经网络搜索性能还能再改进吗?

EMNLP 2019 | 4块GPU搜索1天,神经网络搜索性能还能再改进吗?

作者 | 姜雨帆 编辑 | 唐里

当人工设计的神经网络结构在各项任务上都取得了很好的成绩之后,人类开始思考如何自动设计网络结构。

研究人员在2016年提出了神经网络的结构搜索(NAS),旨在从海量的神经网络结构中通过搜索的方式得到一个最优的网络结构。如果采用随机搜索的策略,搜索代价极高。为此,人们提出了不同的搜索策略来指导网络结构搜索。其中,最成功的策略当属强化学习和演化算法,在图像领域都得到了优秀的网络结构。但这些搜索方法需要的计算资源仍不是普通的研究机构可以负担起的。例如在图像识别任务CIFAR-10上搜索到一个性能优秀的结构需要使用450块GPU搜索3-4天。

最近,研究人员从不同的角度出发,提出了可微分的神经网络结构搜索方法,该方法通过将离散的网络结构参数连续化,在训练过程中使用梯度下降的方法对结构参数进行更新,得到最终的网络结构。该方法极大提高了网络结构搜索的效率。将上述任务的时间缩短至4块GPU 搜索1天。

可微分的网络结构搜索方法将待搜索的单元定义成一个有向无环图。每两个节点之间有多条边相连,每条边代表不同函数操作。为了能让离散的搜索空间可导,我们为每个操作引入一个权重,使用归一化的方法对每种函数操的选择进行松弛。在训练过程中使用梯度下降的方法对权重进行更新,最后选取权重较大的操作作为最终的结构,可参见下图左:

尽管可微分的网络结构搜索在保证网络性能的前提下,大大提高了搜索效率,但该方法仍存在一定的局限。在原方法中,归一化操作仅作用在两个节点之间的操作,而来自不同节点之间的操作不可比。这样的限制可能会导致局部偏置问题,使得网络训练无法收敛。

针对上述问题,本文对可微分的网络结构搜索方法进行改进。我们移除了原方法中存在的局部限制,对每一个节点的所有的输入边进行全局归一化操作,如上图右,减少网络中‘局部偏置’的影响。经过实验分析,我们改进的方法在保证网络性能的前提下,进一步提高网络搜索的效率以及稳定性。后续将对该方法的思想和实现作具体介绍。

方法描述

可微分的网络结构搜索方法面向的是一个单元模块,类似循环神经网络的一个循环单元,或者卷积神经网络的卷积单元,最终将搜索得到的单元堆叠成整个神经网络。针对语言建模的任务,我们对循环神经网络的循环单元进行搜索。

实验分析

我们在语言模型和命名实体识别任务上对改进的可微分结构搜索方法进行验证,实验结果如下图所示。具体的实验配置可参见论文。

为了验证方法的有效性,我们使用四组不同随机种子对网络进行初始化。分别使用改进的方法和原方法进行结构搜索。每10轮对当前时刻的结构性能进行验证,平均性能如下图所示。

以上实验结果可以证明,我们改进的方法在保证网络性能的前提下,进一步提高网络搜索的效率以及稳定性。

最后,我们对搜索得到的网络结构进行了可视化,如下图所示。

图中上方的结构是通过语言模型任务搜索得到的,下面的结构是通过命名实体识别任务得到的。从图中可以看出,每个搜索得到的循环神经单元都是一个有向无环图,图中包含了有顺序的八个节点,节点之间靠不同的激活函数进行连接。我们看到,通过搜索得到的网络结构都十分复杂,无法通过手工设计出来。同时,不同的任务最终搜索得到的结构也是不同的,这可能是因为每个任务都有不同的偏置,这也进一步证明了研究网络结构搜索的必要性。

总结

本文对可微分的网络结构搜索方法进行改进,移除了原方法中归一化操作的局部限制。提高了结构搜索的效率和稳定性,在语言模型任务和命名实体识别任务上搜索到多个优秀的网络结构。在未来的工作中,我们将在更多的任务上进行网络结构的搜索。

论文链接:https://www.aclweb.org/anthology/D19-1367.pdf


姜雨帆,东北大学自然语言处理实验室研究生,研究方向为神经网络结构搜索、神经语言模型。

小牛翻译,核心成员来自东北大学自然语言处理实验室,由姚天顺教授创建于1980年,现由朱靖波教授、肖桐博士领导,长期从事计算语言学的相关研究工作,主要包括机器翻译、语言分析、文本挖掘等。团队研发的支持140种语言互译的小牛翻译系统已经得到广泛应用,并研发了小牛翻译云(https://niutrans.vip)让机器翻译技术赋能全球企业。

本文分享自微信公众号 - AI科技评论(aitechtalk),作者:姜雨帆

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-11-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 业界 | Dropbox 技术主管叶旭刚:AI 时代需要什么样的搜索引擎?

    AI 科技评论按:搜索技术从一开始的桌面文件搜索、互联网搜索,发展至今日流行的程序内部搜索(In-app search),先后攻克了不同的技术难点,面对如今来势...

    AI科技评论
  • 开发 | 如何在Kaggle中高效搜索数据集?快吃下这枚安利

    AI科技评论按:对于关注数据科学的同学来说,Kaggle上庞大的数据集是一个极好的资源池,但是这么多的数据,如何进行更精准的搜索?近日,Kaggle官方博客就刊...

    AI科技评论
  • 动态 | 沈向洋WSDM 2018演讲:当搜索也变得智能&可对话

    AI 科技评论消息,数据挖掘和机器学习应用顶级会议之一的 WSDM 2018(ACM International Conference on Web Searc...

    AI科技评论
  • ACL 2020 | 玩转网络结构搜索?你需要更大的搜索空间

    网络结构搜索技术近些年获得了广泛的关注,但是其搜索空间往往被限缩在元结构内部(循环单元或卷积单元等),缺乏对模型整体架构的学习。

    机器之心
  • 如何防止自己被人肉搜索到?

    “人肉搜索”简称人肉,是一种以互联网为媒介,部分基于人工方式对搜索引擎所提供信息逐个辨别真伪,部分又基于通过匿名知情人提供数据的方式去搜集关于特定的人或者事的信...

    用户4143945
  • 装系统流程(装机版)

    先安装‘大白菜U盘制作工具’程序,之后启动,将一个U盘制作成启动盘,(切记:该U盘将会被格式化,所以作启动盘前请先备份好数据)   大白菜网址:http://w...

    黑泽君
  • 一篇全是代码的数据可视化案例

    实在没时间写文字步骤了,算了,就甩一篇代码给大家吧,这篇代码包含五张图,分别可以呈现放射状线路图、迁徙路径图、闭环路径图、菱形气泡图、方形气泡图。 librar...

    数据小磨坊
  • Dojo初探之5:dojo的request(请求)操作、请求过程事件绑定和隐藏数据data()操作(基于dojo1.11.2版本)

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...

    eguid
  • 异常检测怎么做,试试孤立随机森林算法(附代码)

    从银行欺诈到预防性的机器维护,异常检测是机器学习中非常有效且普遍的应用。在该任务中,孤立森林算法是简单而有效的选择。

    机器之心
  • 《PaddlePaddle从入门到炼丹》一——新版本PaddlePaddle的安装

    这一章我们介绍如何安装新版本的PaddlePaddle,这里说的新版本主要是说Fluid版本。Fluid 是设计用来让用户像Pytorch和Tensorflow...

    夜雨飘零

扫码关注云+社区

领取腾讯云代金券