迁移学习中的负迁移：综述

脑机接口社区

发布于 2020-11-11 14:52:11

2.4K0

导读

迁移移学习(TL)试图利用来自一个或多个源域的数据或知识来促进目标域的学习。由于标记成本、隐私问题等原因，当目标域只有很少或没有标记数据时，它特别有用。

不过，TL的有效性并不总是得到保证。负迁移(NT)，即源域数据/知识导致目标域学习性能下降，是TL中一个长期存在且具有挑战性的问题，文献中提出了各种克服负迁移的方法。本文从源数据质量、目标数据质量、域差异和集成算法四个方面对近100种对抗NT的方法进行了分类和回顾，填补了这一空白。本文也讨论了相关领域的NT，如多任务学习、多语言模式和终身学习。

今天介绍的是华中科技大学伍冬睿教授团队关于迁移学习中的负迁移领域进行的一个综述。虽然这篇综述的主要内容讲述的是迁移学习与负迁移的研究进展，然而将迁移学习应用于脑机接口、脑电数据处理时也必须考虑到训练和测试样本往往来自不同分布的问题。关于脑机接口中的迁移学习综述可以查看：《华中科技大学伍冬睿教授：非侵入式脑机接口中的迁移学习综述（2016-2020）》、《伍冬睿教授：脑机接口中迁移学习的完整流程》、《脑机接口中的流形嵌入知识迁移学习》等。

传统机器学习的一个基本假设是训练和测试数据来自同一个分布。然而，在现实应用中这个假设往往不能满足。比如，两个图像数据库可能是用不同的相机在不同光照条件下采集的；脑机接口中的被试往往具有很大的个体差异。所以，从训练集上获得的模型在测试集上的泛化能力往往不好。

一个直观的解决办法是重新采集跟测试集样本分布相同的大量带标注样本，然后从中训练一个有监督机器学习模型。然而，现实应用中并不能总是获得这样的大量带标注样本，比如因为标注成本高、隐私考虑等。

更好的解决办法是使用迁移学习，即使用源域的数据或信息来帮助目标域的学习。这样，目标域只需要很少或完全不需要带标注样本。

然而，迁移学习并不总是有效的，除非其基本假设都得到满足：