学界 | 迁移学习效果优化不再是难题,杨强教授团队带来自动找到最佳算法的L2T

AI 科技评论按:近日,香港科技大学杨强教授团队发表了一篇关于迁移学习的论文。在论文中,他们提出了一种新颖的迁移学习范式 Learning to Transfer (L2T),用系统化、自动化的方法解决目前迁移学习中可选算法多、但实际应用中难以找到最佳算法的问题。

AI 科技评论对论文中方法的重点思想介绍如下,涉及具体公式及推导过程请参见原论文。

迁移学习

迁移学习(Transfer Learning)的想法来自于人类在不同的任务间转换知识的能力,在机器学习领域使用迁移学习的目的是为了运用现有领域内的知识,提高模型在新的领域内的表现,又或者训练一个用于新的领域的模型时减少所需要的标记数据数目。在所能获得的标记数据有限的情况下,迁移学习有着重要的意义。

迁移学习研究的关键问题是何时迁移如何迁移迁移什么。如果从现有领域进行迁移之后能够有助于新领域的表现,那么就适合迁移(“何时迁移”);要迁移的对象是两个领域内共享的那部分知识(“迁移什么”);算法发挥的作用就是找到这部分知识,然后进行迁移(“如何迁移”)。不同的算法很可能会找到可迁移的知识里不同的部分,就会导致不同的迁移学习效果,在迁移学习完成后对表现进行测量就能够看到这些差别。

要达到源领域和目标领域之间的最优迁移效果,需要研究者们对基于实体、参数、特征的数百种迁移学习算法逐一尝试。由于这样暴力尝试的代价过于高,实际中研究者往往只能在有限的尝试中找到一个次优的算法,而这样的做法则需要对点对点迁移有相当的经验,思考方法也不系统。

Learning to Transfer

杨强教授团队认为,逐一尝试现有的不同迁移学习算法不应成为唯一一种确定要迁移哪些知识并提高迁移学习效果的方法。所以他们在论文中提出了一种新的迁移学习范式,名为 Learning to Transfer(L2T)。受到人类能够根据随着经验增加越来越轻松地判断如何转移知识的启发,L2T 的核心思想就是利用以往的迁移学习经验自动决定在源领域和目标领域之间如何迁移以及迁移什么,从而提高迁移学习的效果;其中对以往经验的利用也是在所有迁移学习算法中首次出现。

为了达到这样的目标,L2T 的过程分为两个阶段:

第一个阶段是“积累经验”。首先,L2T 智能体进行若干次迁移学习,并对这些迁移学习过程做记录。每一次学习的记录分成三部分:一对源领域 S 和目标领域 T,参数化为共享潜特征因子(latent feature factor)格式的被迁移知识 W,以及表现提升比 l(论文中定义这个值为有无迁移学习的状况下表现之比,越高说明迁移学习效果越好)。记录格式类似这样(S,T,W,l)。

接下来 L2T 智能体就需要根据这些迁移经验,学习如何迁移。这个过程是学习一个反射函数 f =(S,T,W),函数值就是刚才的表现提升比 l 。这个反射函数的目标就是通过 S、T、W 预计表现提升比 l ,学到的反射函数内部就隐含了元认知迁移学习的技能,即迁移什么、如何迁移才能够让给定的源领域和目标领域之间的表现提升比最高。源领域和目标领域的特性也参与构成了 f 的一部分。

第二阶段就是真正进行迁移。对于之后再提供的新的一对源领域和目标领域和已经学到的 f,L2T 智能体就可以通过求 f 最大值的方式找到最优的迁移知识,以参数的形式体现在W中。迁移学习算法按照参数W执行,就可以达到设定的迁移学习效果。

论文中 L2T 范式的说明配图。图中黑字的(1)、(2)、(3)就是记录若干次学习、学习反射函数 f、通过 f 对新的源领域和目标领域的迁移方式求最优解

L2T 这种新颖的迁移学习范式为有效地迁移学习开启了新的大门。通过对以往的迁移学习经验的利用,L2T 能够以系统化、自动化的方式在领域间发现更多的可迁移知识,而无需研究者自己具备丰富的经验。

反射函数 f

显然,在这样的范式下,反射函数 f 具体形式的构造是重中之重。目前作者们选定的 L2T 研究领域为针对一阶潜特征因子的迁移学习,即源领域和目标领域的特征空间相同,而标签不同。在构造 f 的过程中,作者们讨论并解决了以下几个问题。

把“学习什么”参数化:对所有算法中的要迁移的内容做统一的参数化。这样的潜特征因子的迁移学习的目标就是学到不同领域间的与领域无关的特征因子。比如从识别狗迁移到识别猫,其中眼睛、嘴、尾巴等共有的特征就是不同领域间可以共享的特征因子。

从经验学习:作者们认为有两个因素对表现提升比 l 有很大影响,在构建 f 的时候这两个方面都要考虑到。因素一是源领域和目标领域在共享潜空间的区别。更小的区别就是更大的重叠空间,这意味着有更多的潜特征因子可供迁移,提升比例也会更高。

对于源领域和目标领域在共享潜空间的区别,作者们首先用了最大平均差异(maximum mean discrepancy,MMD)来衡量。不过MMD的问题是只能衡量两个空间的平均值之间的距离,而不足以衡量两个空间的区别大小(如下图);所以作者们考虑到这一点,也加入了空间分布的集中性的因素在公式中。

如图,蓝色线段为两个空间平均值之间的距离。此图说明了这个距离不足以完全衡量空间区别的大小

因素二是目标领域在潜空间的鉴别能力。目标领域在潜空间的鉴别能力越强,表现的提升也会越明显。由于迁移学习的主要应用场景就是在有标签数据不足时,所以作者们也就直接选择基于无标签数据做计算。无标签数据的鉴别性可以从两个方面评价:类似的实体在嵌入潜空间后也应该距离相近;差别很大的实体在嵌入潜空间后也应该距离较远。从而提出了鉴别性的评价公式。

这样,明确了 f 的具体形式后,就可以先学习以往的若干次迁移学习经验,然后根据学到的 f 求迁移方式(参数W)的最优解。(相关公式参见论文原文)

实验结果

由于不同领域内的任务难度不同,不好直接对比,论文中选择了继续使用前文定义过的表现提升比 l(有无迁移学习的状况下表现之比,越高说明迁移学习效果越好),让 L2T 与其它许多常用的迁移学习算法进行了对比。

从上图可以看到,当目标领域内的有标签样本数目很少的时候,L2T 的表现遥遥领先,这说明 L2T 最为有效地迁移了两个领域内共有的知识,而且在样本很多时依然保持着优势。

为了验证“从经验学习”的有效性,作者们还设计了另一个实验。首先设定 L2T 要学习的迁移经验数目是1000条,然后用不同的以往算法生成这1000条经验供它学习,看看 L2T 的表现受经验影响情况如何。结果如下表。(表中内容有删减,原表格参见论文原文)

可以看到,随着使用的算法增多,L2T 的学习效果也越好(学到了更多情况,学到的反射函数 f 更强,迁移学习得更有效)。而且即便只用一种现有算法为 L2T 生成经验(ITL 与 DIP 两行)时,L2T 的学习效果也有大幅度提高(3个标记样本时,ITL 和 DIP 本身的表现分别为 1.0188 和 1.0875)。这有力地说明了“从经验学习”的巨大作用。

论文地址:https://arxiv.org/abs/1708.05629

AI 科技评论编译

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-08-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏IT技术精选文摘

机器学习简介

在直接进入机器学习的范围之前,让我们从单词的含义开始。这可能看起来很明显,但最好一开始就从其含义入手。 机器是包含一个或多个能够转换能量的零件的工具。机器通常采...

1697
来自专栏量化投资与机器学习

【机器学习课程】深度学习与神经网络系列之绪论介绍

神经网络与深度学习 让机器具备智能是人们长期追求的目标,但是关于智能的定义也十分模糊。Alan Turing在 1950年提出了著名的图灵测试:“一个人在不接触...

1979
来自专栏人工智能头条

OpenAI NLP最新进展:通过无监督学习提升语言理解

661
来自专栏机器之心

学界 | 最大规模数据集、最优图像识别准确率!Facebook利用hashtag解决训练数据难题

1275
来自专栏新智元

神经网络突变自动选择AI优化算法,速度提升50000倍!

机器学习系统并非是“生而平等”的。没有一种算法能应对所有的机器学习任务,这就让寻找最优的机器学习算法成为一项艰巨又耗时的工作。不过这个问题现在有希望解决了,最近...

903
来自专栏机器之心

学界 | 担心面部识别泄露隐私?多伦多大学图像「隐私过滤器」了解一下

每当用户将照片或视频上传到社交媒体平台时,这些平台的面部识别系统都会对用户有一定的了解。这些算法会提取包括用户的身份、所在地以及认识的人在内的数据,而且还在不断...

1000
来自专栏人工智能头条

何恺明等在图像识别任务上取得重大进展,这次用的是弱监督学习

1624
来自专栏AI研习社

教程 | Hinton 机器学习视频中文版:感知器的原理透析(2.4)

本套课程中,Hinton 重点介绍了人工神经网络在语音识别和物体识别、图像分割、建模语言和人类运动等过程中的应用,及其在机器学习中发挥的作用。与吴恩达的《Mac...

2679
来自专栏AI科技大本营的专栏

资源 | Intel发布AI免费系列课程3部曲:机器学习基础、深度学习基础以及TensorFlow基础

翻译 | AI科技大本营 校对 | 成龙 编辑 | 明明 Intel于近期发布了三门AI系列的免费课程,分别是关于机器学习基础、深度学习基础、TensorFlo...

3198
来自专栏大数据文摘

机器学习性能改善备忘单:32个帮你做出更好预测模型的技巧和窍门

1705

扫码关注云+社区