如何让训练神经网络不无聊?试试迁移学习和多任务学习

雷锋网按:本文为雷锋字幕组编译的论文解读短视频,原标题Transfer Learning vs Multitask Learning,作者为Ibrahim Sobh。 翻译 | 李晶 编辑 | 吴璇

训练深度神经网络是一个乏味的过程。更实际的方法,如重新使用训练好的网络解决其他任务,或针对许多任务使用相同的网络。这篇文章中,我们会讨论两个重要的方法:迁移学习和多任务学习。

迁移学习

在迁移学习中,我们希望利用源任务学到的知识帮助学习目标任务。例如,一个训练好的图像分类网络能够被用于另一个图像相关的任务。再比如,一个网络在仿真环境学习的知识可以被迁移到真实环境的网络。

总的来说,神经网络迁移学习有两种方案:特征提取和微调。迁移学习一个典型的例子就是载入训练好VGG网络,这个大规模分类网络能将图像分到1000个类别,然后把这个网络用于另一个任务,如医学图像分类。

1) 特征提取

特征提取是针对目标任务把一个简单的分类器加在源任务上预训练的网络上,将预训练的网络作为特征提取器。仅有添加的分类器的参数需要更新,预训练的网络的参数不变。这能使新任务从源任务中学习到的特征中受益。但是,这些特征更加适合源任务。

2) 微调

微调允许学习目标任务时修改预训练的网络参数。通常,在预训练的网络之上加一个新的随机初始化的层。预训练网络的参数使用很小的学习率更新防止大的改变。通常会冻结网络底层的参数,这些层学到更通用的特征,微调顶部的层,这些层学到更具体的特征。同时,冻结一些层能够减少需要训练的参数的数量,避免过拟合问题,尤其时在目标任务数据量不够大的情况下。实践中,微调胜过特征提取因为他针对新的任务优化了预训练的网络。

迁移学习的基本情形:

迁移学习可以分为4种情形基于以下两个因素:1)目标任务数据集的大小,2)源任务与目标任务的相似度:

情形1:目标数据集很小,目标任务与源任务相似:这种情况使用特征提取,因为目标数据集小容易造成过拟合。

情形2:目标数据集很小,目标任务与源任务不同:这时我们微调底层网络,并移除高层网络。换句话说,我们使用较早的特征提取。

情形3:目标数据集很大,目标任务与源任务相似:我们有了大量的数据,我们可以随机初始化参数,从头开始训练网络。然而,最好还是使用预训练的网络初始化参数并微调几层。

情形4:目标数据集很大,目标任务与源任务不同。这时,我们微调大部分层甚至整个网络。

多任务学习

多任务学习的主要目标是通过使用多个任务的样本优化网络的参数改进任务的性能。例如,我们希望有一个网络可以根据输入的脸部图像区分是男性还是女性,同时可以预测这个人的年龄。这时,我们有两个相关的任务,一个是二分类,一个是回归任务。显然两个任务是相关的,对一个任务的学习可以改进另外一个任务。

一个简单的网络设计实例,可以在任务和任务之间共享一部分网络。共享部分学习任务通用的中间表达,有助于这些共同的学习任务。另一方面,针对特定的学习任务,特定的头部会学习如何使用这些共享表达。

对深度学习来说,迁移学习和多任务学习是两个重要的方法。

博客原址:https://www.linkedin.com/pulse/transfer-learning-vs-multitask-ibrahim-sobh/


原文发布于微信公众号 - AI研习社(okweiwu)

原文发表时间:2018-04-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏媒矿工厂

基于生成对抗网络的反色调映射算法

ICASSP 2018于2018年4月15日到4月20日在加拿大卡尔加里举行,会议主题为Signal Processing and Artificial Int...

1273
来自专栏大数据挖掘DT机器学习

一种面向高维数据的集成聚类算法

一种面向高维数据的集成聚类算法 聚类集成已经成为机器学习的研究热点,它对原始数据集的多个聚类结果进行学习和集成,得到一个能较好地反映数据集内在结构的数据划分。...

4827
来自专栏贾志刚-OpenCV学堂

卷积神经网络(CNN)概念解释

卷积神经网络(CNN)概念解释 传统对象识别-模式识别 传统的模式识别神经网络(NN)算法基于梯度下降,基于输入的大量样本特征数据学习有能力识别与分类不同的目...

3816
来自专栏技术小站

吴恩达深度学习笔记 4.1~4.8 深层神经网络

深层神经网络与浅层神经网络的区别是:隐藏层比浅层神经网络多,从命名规则上来说,有1,2,5个隐藏层的神经网络可以称为1 hidden layer,2 hidde...

1731
来自专栏AI研习社

新手必看的十种机器学习算法

AI 研习社按:在神经网络的成功的带动下,越来越多的研究人员和开发人员都开始重新审视机器学习,开始尝试用某些机器学习方法自动解决可以轻松采集数据的问题。然而,在...

37910
来自专栏机器之心

学界 | 谷歌大脑提出Adversarial Spheres:从简单流形探讨对抗性样本的来源

3517
来自专栏机器之心

学界 | FAIR提出用聚类方法结合卷积网络,实现无监督端到端图像分类

预训练的卷积神经网络,或称卷积网络,已经成为大多数计算机视觉应用的基础构建模块 [1,2,3,4]。它们能提取极好的通用特征,用来提高在有限数据上学习的模型的泛...

1691
来自专栏AI科技大本营的专栏

深度学习最新方法:随机加权平均,击败了当前最先进的Snapshot Ensembling

【AI 科技大本营导读】本文,我们将讨论近期两篇有意思的论文,论文的大致思路是通过一种集成方式来提高任意给定的神经网络性能。这两篇论文分别是:

2533
来自专栏大数据风控

评分法模型开发-WOE值计算

对入模的定量和定性指标,分别进行连续变量分段(对定量指标进行分段),以便于计算定量指标的WOE和对离散变量进行必要的降维。对连续变量的分段方法通常分为等距分段...

3496
来自专栏目标检测和深度学习

深度学习最新方法:Snapshot Ensembling以及OUT!随机加权平均才是未来!!!

4042

扫码关注云+社区

领取腾讯云代金券