2017CIKM-迁移学习专题论文分享

导读

ACM CIKM 2017全称是The 26th ACM International Conference on Information and Knowledge Management,是国际计算机学会(ACM)主办的数据库、知识管理、信息检索领域的重要学术会议。

参会归来后,小编邀请了参会的同学与各位读者们第一时间分享了CIKM的参会感受。在接下来的CIKM系列分享中,你将会看到:CIKM最佳论文分享,Network Embedding专题和迁移学习专题。本篇文章是CIKM系列分享的三篇:CIKM 迁移学习专题分享

Transfer learning (迁移学习,以下简称TL),有时也称为domain adaptation,是机器学习主流的技术之一。TL的核心思想是从一个有很多标注数据的源领域里学习一些知识来帮助一个标注数据不多的目标领域。TL在工业界有很大的需求,因为大量新的应用场景不断涌现。传统的机器学习需要对每个场景积累大量训练数据,这将会耗费大量的人力与物力。如果我们能利用好现有的训练数据去帮助学习新的场景的学习任务将会大大减少标注的资源。香港科技大学教授、人工智能和数据挖掘专家杨强在TL领域有非常大的贡献,这次他的CIKM2017 keynote就是关于TL怎么和近几年大火的DL(深度学习)结合的。这篇文章主要就是基于杨强教授的CIKM2017 keynote的内容。

值得一提的是,斯坦福的教授吴恩达(Andrew Ng)认为下一个机器学习成功的应用将是由TL来驱动的:「TL will be the next driver of ML sucess」。

Why TL is hard? TL的最大挑战是如何学习出源领域和目标领域共同的knowledge(知识),这个knowledge需要具有很好的领域的适应性。

通常来说有以下四类TL算法:

样本迁移(Instance based TL)

这里需要在源域中找到与目标域相似的数据,然后调整这个数据的权重在和目标域混合训练。这里的假设是,源域和目标域可能有部分重叠,找出这些重叠的部分可以帮助学习目标域。下个例子就是找到源域的例子3来帮助目标域的学习。这个方法比较简单,但是不适合源域与目标域分布不一致的情况。

特征迁移(Feature based TL)

这里假设源域和目标域有一些交叉特征,通过映射可以把源域和目标域放到相同的空间,在这个新的空间里再进行传统的机器学习。这个优点是方法比较通用,效果也不错,但是特征映射比较难,容易过拟合。下图1就是可以从两种类型的狗里面抽象出狗的一些特征,用来帮助目标领域的学习。

模型迁移(Parameter based TL)

这里通常是把一个领域训练好的模型用到新的领域,这个时候可能需要新的领域的样本就比较少。再一些图片的分类场景,大家用imagenet训练好的模型来finetune,通常finetune最后几层就可以达到不错的效果。这个方法可以充分利用模型之间的相似性,但是主要问题是不容易收敛。

关系迁移(Relation based TL)

这里假设源域和目标域是相似的,可以将源域学到的一些逻辑关系用到目标域。

近年来随着DL(深度学习)的火热,越来越多的研究开始关注DL和TL的结合。深度学习,也被称为representation learning,是个非常有效的feature representation方法。所以DL和TL的结合很自然的是在feature based TL的基础上的。下面我们会重点讲述一下这几类工作:supervised TL, unsupervised TL,和Transitive Transfer Learning。

Supervised TL: Feature learning

[Deep Adaptation Networks (DAN) Long et al. 2015] 这个论文展示了一个fully-shared的TL模型,也是最常用的一种TL模型,基本idea是用一个NN学一个shared representation,然后对于源领域和目标领域各自训练一个分类器来学习各自的label。他们还提出了一个MK-MMD来学习最后一层的domain difference。整体结构如下:

[Yosinski, Jason, et al. "How transferable are features in deep neural networks?."NIPS. 2014.] 这篇文章详细的分析了对于DL来说,哪些特征是可以transfer的,哪些特征是不可以transfer的。基本的idea是,对于DL来说,底层学习的是一些通用或者基础的特征,高层学的特征比较高级,抽象,通常来说越高层学到的信息越和domain相关。所以对于DL来说,我们通常把底层的特征share,最后的几层的特征分开学。这个和上面讲的fully-shared TL模型的思路是一致的。

Unsupervised Deep TL

这类方法假设没有目标领域的标注。这里需要优化的是源领域的loss(有标注)和目标领域的差异(目标领域和源领域的差异),然后把源领域的模型直接用在目标领域。整体的优化目标如下:

考虑domain loss常用的方式是计算domain间的相似度,有以下几个工作:

另外,也可以用一个domain discrimninator去区别不同domains,同时用adversarial loss去学习一个common features。详见这几个工作: [Ganinetal.2015, Tzengetal.2015, Liu and Tuzel2016, Tzeng et al.2017]. 还有一种是build一个reconstruction loss, 相当于加了一个autoencoder,详见[Ghifaryet al. 2016,Bousmaliset al.2016]。

Transitive Transfer Learning

Transitive TL (传递性迁移学习)是指,如果两个domain之间如果相隔得太远,那么我们就插入一些intermediate domains,一步步做迁移。传统迁移学习就好比是踩着一块石头过河,传递迁移学习就好比是踩着连续的两块石头。更进一步,远领域迁移学习Distant domain transfer learning,这就好比是踩着一连串石头过河。传统迁移学习只有两个领域足够相似才可以完成,而当两个领域不相似时,传递迁移学习却可以利用处于这两个领域之间的若干领域,将知识传递式的完成迁移。

[Distant Domain TL, Ben Tan, et al., AAAI 2017] 这篇文章核心的idea就是通过reconstruction loss来选出好的source和intermediate data,然后把source, intermediate, target三个领域的数据合起来用一个shared的模型来拟合结果。这里的reconstruction是通过autoencoder来做的。Instance selection loss:

这个是instance selection需要优化的loss,其中:

v是binary的,表示该数据有没有被选中。

第一项和第二项表示的是选中的source和intermediate数据的reconstruction loss。

第三项是target的reconstruction loss。

最后一项是为了是的选的source和intermediate数据越多越好,具体计算公式如下。

Incorporation of Side Information: 通过J1可以选出好的source和intermediate数据,然后reconstruction没有考虑source和target的labels,所以使用J2来计算这部分的loss。

第一项是source data的classification loss,第二项是target的。

第三项是intermediate的,由于这部分没有label,第三项是用来选出高置信度的intermediate data。

最后J1和J2可以通过block coordinate descent (BCD)来优化,简单来说就是不断重复下面两步:

fix v,用BP优化模型参数。

fix模型参数,优化v。

模型的框架如下:

— END —

本文来自企鹅号 - 蚂蚁金服科技媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

Uber 论文5连发宣告神经演化新时代,深度强化学习训练胜过 SGD 和策略梯度

AI 科技评论按:一直低调的 Uber AI 研究院近日连发 5 篇论文,介绍了他们在基因算法(genetic algorithm)、突变方法(mutation...

37560
来自专栏数据派THU

【独家】深扒Yann LeCun清华演讲中提到的深度学习与人工智能技术(PPT+视频)

本文长度为3000字,建议阅读10分钟 本文为Yann LeCun在清华大学做的关于深度学习与人工智能技术的演讲梗概。 姚期智先生引言: 非常荣幸来给大家介...

23470
来自专栏机器之心

DeepMind推出深度学习与强化学习进阶课程(附视频)

课程地址:https://www.youtube.com/playlist?list=PLqYmG7hTraZDNJre23vqCGIVpfZ_K2RZs

9610
来自专栏新智元

自然语言处理终极方向:深度学习用于自然语言处理的5大优势

【新智元导读】在自然语言处理领域,深度学习的承诺是:给新模型带来更好的性能,这些新模型可能需要更多数据,但不再需要那么多的语言学专业知识。 在自然语言处理领域,...

39360
来自专栏PPV课数据科学社区

学习攻略 | 机器学习和深度学习技能树、面试宝典

人工智能的浪潮正在席卷全球,这些得益于数据量的上涨、运算力的提升和机器学习新算法(深度学习)的出现。机器学习是一种实现人工智能的方法,深度学习是一种实现机器学习...

43250
来自专栏AI科技评论

学界 | 谷歌新研究,自监督视频上色约等于目标追踪和姿态估计

AI 科技评论按:本文发布于 Google AI Blog,介绍了 Google 一项最新研究成果——自监督学习下的视频着色模型,还可以直接用于视频目标跟踪和人...

16130
来自专栏深度学习

人脸识别技术发展及实用方案设计

人脸识别技术不但吸引了Google、Facebook、阿里、腾讯、百度等国内外互联网巨头的大量研发投入,也催生了Face++、商汤科技、Linkface、中科云...

53570
来自专栏大数据文摘

让你上瘾的网易云音乐推荐算法,用Word2vec就可以实现

14540
来自专栏量子位

OpenAI新研究:通过非监督学习提升NLP任务表现

今天,OpenAI在其官方博客上发布了一篇题为《用非监督学习来提升语言理解》的文章,介绍了他们最近的一项研究:Improving Language Unders...

10710
来自专栏新智元

中星微夺冠国际人工智能算法竞赛,目标检测一步法精度速度双赢

21470

扫码关注云+社区

领取腾讯云代金券