AAAI 2018 | 南京大学提出SSWL:从半监督弱标注数据中学习多标签学习问题

选自arXiv

作者:Hao-Chen Dong、Yu-Feng Li、周志华

机器之心编译

参与:白悦、蒋思源

在多标签学习中,通常我们会假设一个实例的所有标签都已知,但现实情况并不如此。在 AAAI 2018 所接收的论文中,南京大学周志华组提出了从半监督弱标注数据中学习并处理多标签学习问题的方法。该方法假设实例和标签的相似性有助于补充缺失的标签。而且,当标签信息不足时,多个模型的集成通常比单个模型更有效。

传统的监督式学习通常假设每个实例都与一个标签相关联。然而,在现实生活的许多任务中,一个实例通常不止一个标签。传统的基于一个实例对应一个标签的监督学习不能解决这个问题,因此,用来处理与一组标签关联的实例的多标签学习(Zhang and Zhou 2014)受到了很大的关注。

在以前的多标签研究中,训练数据一个基本的假设是我们知道每一个实例的所有相关标签。然而这一点在现实中是不成立的,例如人类可能会给训练图像标注为汽车或道路而忽略行人与建筑。因此标注的不完全性显著地影响多标签学习(Zhou 2017)的性能。

显然,弱标签学习和半监督的多标签学习都不能解决本文所关心的问题。例如,弱标签学习忽略了许多可能非常有用而未标记的实例;半监督多标签学习假定所有相关标签都可用于标记实例,但在我们的情况中并非如此。注意本文中的数据情景学习与以前的多标签学习有很大不同。我们把这种多标签问题称为半监督的弱标签学习。下图举例说明了本论文的学习场景和图 1 中以前的多标签学习框架之间的差异。

图 1:四种多标签学习设定

本论文研究了半监督的弱标签学习问题,提出了 SSWL(半监督弱标签)模型。周志华等研究者的基本假设是,实例和标签的相似性有助于补充缺失的标签。而且,当标签信息不足时,多个模型的集成通常比单个模型更有效。具体来说,他们首先基于平滑假设构造一个正则化项,即类似的实例在其标签集合中应该有相似的概念组合,这要求最终的预测与实例和标签相似性的平滑性同时相关。最后研究者分别为有标签和无标签的实例建立模型,然后我们通过协同正则化框架(Sindhwani, Niyogi, and Belkin 2005)集成多个不同的模型。周志华等研究者将这个问题表示为双凸形式(bi-convex formulation),并提供了一个有效的块坐标下降解决方案。该方法的有效性在实验中得到验证。

论文:Learning from Semi-Supervised Weak-Label Data

论文地址: https://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/aaai18ssml.pdf

多标签学习同时处理与多个标签关联的数据对象。以前的研究通常假定每个实例都给出了与每个训练实例相关的所有标签。然而,在许多应用中,例如图像标注,通常很难为每个实例获得完整的标签集合,并且只有部分甚至是空的相关标签集合是可用的。我们把这种问题称为「半监督弱标签学习」问题。在这项工作中,我们提出了 SSWL(Semi-Supervised Weak-Label)模型来解决这个问题。通过考虑实例相似性和标签相似性来补充缺失的标签。利用多个模型的集合来提高标签信息不足时的鲁棒性。我们用高效的块坐标下降算法将目标形式化为双凸优化问题,且实验验证了 SSWL 的有效性。

算法 1 总结了我们提出的伪代码:

更具体来说,我们首先介绍一些符号:

这里 vec(M)是矩阵 M 的向量化,diag(v)是一个以向量 v 为对角元素的对角矩阵,⊗ 是 Kronecker 乘积(张量积)。

固定 W bar 和 L 以更新 W

我们可以推导出我们的目标,即找到 W,W bar 和标签相似度矩阵 L,使得下面的目标函数被最小化,

其中 α,β,ζ 是参数。U =(XW)◦C +(XW bar)◦(E - C)是两个模型的综合预测。式(3)一方面考虑实例和标签相似性的平滑性,另一方面,它结合了集成学习的优点以获得稳定的结果。

当 W bar 和 L 固定,我们通过使等式(3)关于 W 的导数为零,得到下面关于 W 的等式,

其中 R =(XW)◦C. 根据定理 1,我们可以将公式 4 重新写为,

这是一个简单普通的线性方程,我们可以使用共轭梯度算法(Møller1993)求解,这是求解线性方程的高效算法。

后面固定 W、L 以更新 W bar 和固定 W、W bar 以更新 L 的具体过程请查阅原论文。

文本分类任务

表 2:在 TMC 上的实验结果(平均值±标准差)。↑(↓)表示越大(小)越好。最好的结果标为粗体(成对 t 检验在 95%的显着性水平)。

基因功能分析任务

表 3:酵母的实验结果(平均值±标准差)。↑(↓)表示越大(小)越好。最好的性能或结果标为粗体(成对 t 检验在 95%的显着性水平)。

场景分类任务

表 4:SceneImage 上的实验结果(平均值±标准偏差)。↑(↓)表示越大(小)越好。最好的表现和结果标为粗体(成对 t 检验在 95%的显着性水平)。

图像标注任务

表 5:msrc 上的实验结果(平均值±标准偏差)。↑(↓)表示越大(小)越好。最好的表现和结果标为粗体(成对 t 检验在 95%的显着性水平)。

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-01-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏磐创AI技术团队的专栏

干货 | 基于深度学习的目标检测算法综述(一)

目标检测(Object Detection)是计算机视觉领域的基本任务之一,学术界已有将近二十年的研究历史。近些年随着深度学习技术的火热发展,目标检测算法也从基...

27920
来自专栏计算机视觉

图像风格转移Automatic Photo Adjustment Using Deep Neural Networks

P图技术日新月异,有些P图大神的作品,让我们驻足相忘~嗷嗷,如何使用神经网络对这些大神的P图风格进行学习,我们这篇论文就提出了下面的方法。我认为这篇文章能很好的...

446110
来自专栏机器之心

深度 | 像玩乐高一样拆解Faster R-CNN:详解目标检测的实现过程

472120
来自专栏目标检测和深度学习

深度 | 像玩乐高一样拆解Faster R-CNN:详解目标检测的实现过程

作者:Matt Simon 机器之心编译 本文详细解释了 Faster R-CNN 的网络架构和工作流,一步步带领读者理解目标检测的工作原理,作者本人也提供了...

39980
来自专栏SIGAI学习与实践平台

机器学习与深度学习核心知识点总结--写在校园招聘即将开始时

一年一度的校园招聘就要开始了,为了帮助同学们更好的准备面试,SIGAI 在今天的公众号文章中对机器学习、深度学习的核心知识点进行了总结。希望我们的文章能够帮助你...

12510
来自专栏AI科技评论

干货 | 基于深度学习的目标检测算法综述(一)

目标检测(Object Detection)是计算机视觉领域的基本任务之一,学术界已有将近二十年的研究历史。近些年随着深度学习技术的火热发展,目标检测算法也从基...

18620
来自专栏向治洪

实战卷积神经网络

在近些年,深度学习领域的卷积神经网络(CNNs或ConvNets)在各行各业为我们解决了大量的实际问题。但是对于大多数人来说,CNN仿佛戴上了神秘的面纱。 CN...

24860
来自专栏SIGAI学习与实践平台

目标检测算法中检测框合并策略技术综述

物体检测(Object Detection)的任务是找出图像或视频中的感兴趣目标,同时实现输出检测目标的位置和类别,是机器视觉领域的核心问题之一,学术界已有将近...

16140
来自专栏计算机视觉life

SLIC 超像素分割详解(三):应用

看过上面的介绍后,我们应该思考一下:分割好的超像素有什么用?怎么用?用到哪里? 首先,超像素可以用来做跟踪,可以参考卢湖川课题组发表在IEEE TIP上的《Ro...

472100
来自专栏SIGAI学习与实践平台

目标检测算法中检测框合并策略技术综述

物体检测(Object Detection)的任务是找出图像或视频中的感兴趣目标,同时实现输出检测目标的位置和类别,是机器视觉领域的核心问题之一,学术界已有将近...

87630

扫码关注云+社区

领取腾讯云代金券