DeepMind最新深度学习研究:超参选择利器-引入基于群体的训练

【导读】机器学习的训练和优化是现代深度学习模型中最具有挑战性的方面,本文首先介绍了常用的深度学习超参数优化方法:随机搜索和手动优化,然后引入DeepMind关于深度学习模型超参数优化的最新研究进展:基于群体的训练(population based training), 它能够在更短的时间和更低的计算资源占用的情况下找到好的超参. 相信会被引入到更多的深度学习框架中,文末附有paper地址和GitHub地址,感兴趣的朋友可以详细了解一下。

What’s New in Deep Learning Research: Introducing Population Based Training

深度学习研究的新进展:基于群体的训练

深度学习模型的训练和优化是任何现代机器智能(MI)解决方案中最具挑战性的方面。在许多情况下,数据科学家能够迅速为特定问题找到正确的算法集,然后要花费若干月找到模型的最优解。最近,DeepMind发表了一篇新的研究论文,其中提出了一种新的方法,用于训练和优化深度学习模型——称为基于群体的训练(population based training)。

传统深度学习模型的优化致力于:在避免急剧改变模型的核心组件的前提下最大限度地减少测试误差。深度学习优化中最重要的方法之一是调整与模型本身正交的元素。深度学习理论通常将这些元素称为超参数。通常,深度学习程序中的超参数包括诸如隐藏单元的数量、可以调整学习速率等要素以提高特定模型的性能等。

优化超参数是在深度学习功能的性能与其成本之间找到平衡的博弈。诸如随机梯度下降及其变种算法已成为深度学习优化的核心,但在大规模场景中应用时仍面临重大挑战。通常,深度学习超参数优化有两种主要方法:随机搜索和手动优化。在随机搜索场景中,采用不同超参数的模型将各自独立并行训练,训练结束时选择性能最高的那个模型。通常情况下,这意味着只有小部分模型是拿着较好的超参数去训练的,而其余模型的超参数是有问题的结果而然不好,甚至可以说是在浪费计算资源, 如下图所示。

手动寻找方法本质上是基于顺序优化过程(sequential optimization)。顺序优化需要完成多次训练, 也就是一个接一个的试, 根据实验结果认为调整新的超参数,再重新训练模型。这是一个顺序过程,使用最少的计算资源,然而导致参数优化时间变长。

正如你所看到的,随机搜索和手动搜索技术都有其优点和局限性。最近,DeepMind团队发表了一篇研究论文,主张采用新的优化技术,试图结合两种方法得到最佳的方法。

引入基于群体的训练



基于群体的训练(PBT)使用类似随机搜索那样的方法来对超参数和权重初始化进行随机采样。与传统方法不同,PBT会异步训练然后定期评估模型性能。如果群体中的一个模型表现不佳,它将评估其余的模型,并用更优化的模型取而代之。同时,在继续训练之前,PBT将在群体中表现的更好的模型的超参的基础上再做修改.

PBT过程允许超参数在线优化,计算资源集中在超参数和权重空间上,这些空间有很大的机会产生好的结果。这将生成一个更快的学习速度,更低的计算资源以及更好的超参调整方案。

在研究论文中,DeepMind团队将PBT应用于不同场景,如深度强化学习或机器翻译。最初的结果非常令人鼓舞,PBT显示出对传统技术的巨大改进。

我们期待可以很快将PBT纳入流行的深度学习框架。Github中有一个初始实现,我们很快会看到其他框架采用这个工作。

相关材料:

DeepMind论文:https://arxiv.org/abs/1711.09846

PBT GitHub实现:https://github.com/MattKleinsmith/pbt

原文链接:

https://towardsdatascience.com/whats-new-in-deep-learning-research-introducing-population-based-training-35c3e5526a90

原文发布于微信公众号 - 专知(Quan_Zhuanzhi)

原文发表时间:2018-02-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

科普|文本分析浅析——文档分类

19940
来自专栏大数据文摘

几千条文本库也能做机器学习!NLP小数据集训练指南

深度学习往往需要大量数据,不然就会出现过度拟合,本文作者提出了一些在文本数据量不够大的时候可用的一些实用方法,从而赋予小数据集以价值。

13320
来自专栏机器之心

「房间里的大象」:让目标检测器一脸懵逼

作者:Amir Rosenfeld、Richard Zemel、John K. Tsotsos

10930
来自专栏新智元

【代替反向传播】终极算法作者提出另一种深度学习:离散优化

【新智元导读】在 Hinton 的 Capsule 之后,越来越多的研究者开始探讨反向传播之外的方法。《终极算法》作者、华盛顿大学教授Pedro Domingo...

44580
来自专栏新智元

谷歌大脑研发出通用永久记忆模块,神经网络首次实现终身学习

【新智元导读】今天为大家介绍的这篇论文提出了一个在深度学习过程中使用的终身记忆模块,该模块利用快速最近邻算法来提高效率。这一记忆模块可以很容易地添加到有监督神经...

35460
来自专栏专知

【干货】模仿人类的印象机制,商汤提出精确实时的视频目标检测方法

【导读】最近,针对视频目标检测中速度精度难以两全的问题,来自商汤科技(SenseTime)的学者发表论文提出一个新的概念——印象网络,其体现出了自然高效的特征聚...

43860
来自专栏PPV课数据科学社区

迁移学习

所谓迁移学习是指针对新问题重新使用预先训练的模型。由于它能用较少的数据训练深度神经网络,这使得目前它在深度学习领域非常流行。通过这篇文章您将会了解什么是迁移学习...

11410
来自专栏大数据挖掘DT机器学习

卷积神经网络(CNN)融合PMF模型构建推荐系统

深度学习在推荐系统上的运用,具体用了卷积神经网络(CNN)提取文本特征,融合PMF模型进行推荐。 具体论文见http://dm.postech.ac.kr/~c...

47690
来自专栏深度学习

深度学习性能提升的诀窍

一、克服过拟合和提高泛化能力的20条技巧和诀窍 你是如何提升深度学习模型的效果?  这是我经常被问到的一个问题。  有时候也会换一种问法:  我该如何提高模型的...

52960
来自专栏Soul Joy Hub

《深度学习Ng》课程学习笔记03week2——机器学习(ML)策略(2)

http://blog.csdn.net/u011239443/article/details/78132697 2.1 进行误差分析 标注错误: ? 2...

35680

扫码关注云+社区

领取腾讯云代金券