学界 | 迁移学习效果优化不再是难题,杨强教授团队带来自动找到最佳算法的L2T

AI 科技评论按:近日,香港科技大学杨强教授团队发表了一篇关于迁移学习的论文。在论文中,他们提出了一种新颖的迁移学习范式 Learning to Transfer (L2T),用系统化、自动化的方法解决目前迁移学习中可选算法多、但实际应用中难以找到最佳算法的问题。

AI 科技评论对论文中方法的重点思想介绍如下,涉及具体公式及推导过程请参见原论文。

迁移学习

迁移学习(Transfer Learning)的想法来自于人类在不同的任务间转换知识的能力,在机器学习领域使用迁移学习的目的是为了运用现有领域内的知识,提高模型在新的领域内的表现,又或者训练一个用于新的领域的模型时减少所需要的标记数据数目。在所能获得的标记数据有限的情况下,迁移学习有着重要的意义。

迁移学习研究的关键问题是何时迁移如何迁移迁移什么。如果从现有领域进行迁移之后能够有助于新领域的表现,那么就适合迁移(“何时迁移”);要迁移的对象是两个领域内共享的那部分知识(“迁移什么”);算法发挥的作用就是找到这部分知识,然后进行迁移(“如何迁移”)。不同的算法很可能会找到可迁移的知识里不同的部分,就会导致不同的迁移学习效果,在迁移学习完成后对表现进行测量就能够看到这些差别。

要达到源领域和目标领域之间的最优迁移效果,需要研究者们对基于实体、参数、特征的数百种迁移学习算法逐一尝试。由于这样暴力尝试的代价过于高,实际中研究者往往只能在有限的尝试中找到一个次优的算法,而这样的做法则需要对点对点迁移有相当的经验,思考方法也不系统。

Learning to Transfer

杨强教授团队认为,逐一尝试现有的不同迁移学习算法不应成为唯一一种确定要迁移哪些知识并提高迁移学习效果的方法。所以他们在论文中提出了一种新的迁移学习范式,名为 Learning to Transfer(L2T)。受到人类能够根据随着经验增加越来越轻松地判断如何转移知识的启发,L2T 的核心思想就是利用以往的迁移学习经验自动决定在源领域和目标领域之间如何迁移以及迁移什么,从而提高迁移学习的效果;其中对以往经验的利用也是在所有迁移学习算法中首次出现。

为了达到这样的目标,L2T 的过程分为两个阶段:

第一个阶段是“积累经验”。首先,L2T 智能体进行若干次迁移学习,并对这些迁移学习过程做记录。每一次学习的记录分成三部分:一对源领域 S 和目标领域 T,参数化为共享潜特征因子(latent feature factor)格式的被迁移知识 W,以及表现提升比 l(论文中定义这个值为有无迁移学习的状况下表现之比,越高说明迁移学习效果越好)。记录格式类似这样(S,T,W,l)。

接下来 L2T 智能体就需要根据这些迁移经验,学习如何迁移。这个过程是学习一个反射函数 f =(S,T,W),函数值就是刚才的表现提升比 l 。这个反射函数的目标就是通过 S、T、W 预计表现提升比 l ,学到的反射函数内部就隐含了元认知迁移学习的技能,即迁移什么、如何迁移才能够让给定的源领域和目标领域之间的表现提升比最高。源领域和目标领域的特性也参与构成了 f 的一部分。

第二阶段就是真正进行迁移。对于之后再提供的新的一对源领域和目标领域和已经学到的 f,L2T 智能体就可以通过求 f 最大值的方式找到最优的迁移知识,以参数的形式体现在W中。迁移学习算法按照参数W执行,就可以达到设定的迁移学习效果。

论文中 L2T 范式的说明配图。图中黑字的(1)、(2)、(3)就是记录若干次学习、学习反射函数 f、通过 f 对新的源领域和目标领域的迁移方式求最优解

L2T 这种新颖的迁移学习范式为有效地迁移学习开启了新的大门。通过对以往的迁移学习经验的利用,L2T 能够以系统化、自动化的方式在领域间发现更多的可迁移知识,而无需研究者自己具备丰富的经验。

反射函数 f

显然,在这样的范式下,反射函数 f 具体形式的构造是重中之重。目前作者们选定的 L2T 研究领域为针对一阶潜特征因子的迁移学习,即源领域和目标领域的特征空间相同,而标签不同。在构造 f 的过程中,作者们讨论并解决了以下几个问题。

把“学习什么”参数化:对所有算法中的要迁移的内容做统一的参数化。这样的潜特征因子的迁移学习的目标就是学到不同领域间的与领域无关的特征因子。比如从识别狗迁移到识别猫,其中眼睛、嘴、尾巴等共有的特征就是不同领域间可以共享的特征因子。

从经验学习:作者们认为有两个因素对表现提升比 l 有很大影响,在构建 f 的时候这两个方面都要考虑到。因素一是源领域和目标领域在共享潜空间的区别。更小的区别就是更大的重叠空间,这意味着有更多的潜特征因子可供迁移,提升比例也会更高。

对于源领域和目标领域在共享潜空间的区别,作者们首先用了最大平均差异(maximum mean discrepancy,MMD)来衡量。不过MMD的问题是只能衡量两个空间的平均值之间的距离,而不足以衡量两个空间的区别大小(如下图);所以作者们考虑到这一点,也加入了空间分布的集中性的因素在公式中。

如图,蓝色线段为两个空间平均值之间的距离。此图说明了这个距离不足以完全衡量空间区别的大小

因素二是目标领域在潜空间的鉴别能力。目标领域在潜空间的鉴别能力越强,表现的提升也会越明显。由于迁移学习的主要应用场景就是在有标签数据不足时,所以作者们也就直接选择基于无标签数据做计算。无标签数据的鉴别性可以从两个方面评价:类似的实体在嵌入潜空间后也应该距离相近;差别很大的实体在嵌入潜空间后也应该距离较远。从而提出了鉴别性的评价公式。

这样,明确了 f 的具体形式后,就可以先学习以往的若干次迁移学习经验,然后根据学到的 f 求迁移方式(参数W)的最优解。(相关公式参见论文原文)

实验结果

由于不同领域内的任务难度不同,不好直接对比,论文中选择了继续使用前文定义过的表现提升比 l(有无迁移学习的状况下表现之比,越高说明迁移学习效果越好),让 L2T 与其它许多常用的迁移学习算法进行了对比。

从上图可以看到,当目标领域内的有标签样本数目很少的时候,L2T 的表现遥遥领先,这说明 L2T 最为有效地迁移了两个领域内共有的知识,而且在样本很多时依然保持着优势。

为了验证“从经验学习”的有效性,作者们还设计了另一个实验。首先设定 L2T 要学习的迁移经验数目是1000条,然后用不同的以往算法生成这1000条经验供它学习,看看 L2T 的表现受经验影响情况如何。结果如下表。(表中内容有删减,原表格参见论文原文)

可以看到,随着使用的算法增多,L2T 的学习效果也越好(学到了更多情况,学到的反射函数 f 更强,迁移学习得更有效)。而且即便只用一种现有算法为 L2T 生成经验(ITL 与 DIP 两行)时,L2T 的学习效果也有大幅度提高(3个标记样本时,ITL 和 DIP 本身的表现分别为 1.0188 和 1.0875)。这有力地说明了“从经验学习”的巨大作用。

论文地址:https://arxiv.org/abs/1708.05629

AI 科技评论编译

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-08-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习、深度学习

运动相机检测无人机-- Detecting Flying Objects using a Single Moving Camera

Detecting Flying Objects using a Single Moving Camera PAMI 2017 http://cvlab...

2329
来自专栏AI深度学习求索

CNN模型的发展:自2012AlexNet-2017DRN的17篇CNN模型论文总结

CNN模型的发展:自2012AlexNet-2017DRN的17篇CNN模型论文总结

1092
来自专栏机器之心

业界 | OpenAI提出新型元学习方法EPG,调整损失函数实现新任务上的快速训练

选自OpenAI 机器之心编译 参与:路雪、刘晓坤 刚刚,OpenAI 提出一种实验性元学习方法 Evolved Policy Gradients(EPG),该...

3559
来自专栏企鹅号快讯

除了深度学习,你还应该了解这些发展方向

译者|严子怡 编辑|Emily AI 前线导读:毫无疑问,AI 的终极未来是达到并超越人类的智能。但是,这是一个非常遥远的目标。即使我们之中最乐观的人,也只敢打...

2116
来自专栏AI科技大本营的专栏

吴恩达说“将引领下一波机器学习技术”的迁移学习到底好在哪?

【导读】两年前,吴恩达在 NIPS 2016 的 Tutorial 上曾说“在监督学习之后,迁移学习将引领下一波机器学习技术商业化浪潮。”现实中不断有新场景的出...

703
来自专栏企鹅号快讯

人工智能与机器学习有哪些不同

每天读一篇一线开发者原创好文 来自:51CTO.COM,作者:RickyHo,刘妮娜译 链接:http://network.51cto.com/art/2017...

2600
来自专栏雪胖纸的玩蛇日常

10.贝叶斯理论

923
来自专栏IT派

IBM长文解读人工智能、机器学习和认知计算

导语:人类对如何创造智能机器的思考从来没有中断过。期间,人工智能的发展起起伏伏,有成功,也有失败,以及其中暗藏的潜力。今天,有太多的新闻报道是关于机器学习算法的...

33514
来自专栏鸿的学习笔记

《machine learning yearning》学习笔记

一、如何选择机器学习策略 一个例子:当你的团队在使用cat图片去喂神经网络,让它去识别出一只cat.但是你的算法的精确度(accuracy)一直没办法提高。 下...

1311
来自专栏数说工作室

造出一艘logistic模型 | 【logistic从生产到使用】(上) | 数说 · 算法

前几天飞扬博士更新了一篇算法文章,关于softmax regression的,它是logistic模型的扩展,因此要是能有些logistic regressi...

3545

扫码关注云+社区