CVPR 2021 | 针对人物交互检测的功能迁移学习

AI科技评论

发布于 2021-04-29 11:06:29

1.3K0

发布于 2021-04-29 11:06:29

文章被收录于专栏：AI科技评论AI科技评论

作者 | 侯志

编辑 | 青暮

本文是悉尼大学博士二年级学生侯志依据三篇发表在CVPR2021和ECCV2020的论文写成的综述文章。

研究人员根据人物交互的组合特性，提出了一系列方法来缓解人物交互检测的少样本和组合性零样本问题，并且更进一步地提出功能迁移学习方法利用组合学习将人物交互检测的功能特征迁移到新物体上面，使得人物交互检测模型同时具备HOI检测和新物体的功能识别能力。

ATL(CVPR2021)：https://arxiv.org/abs/2104.02867

FCL(CVPR2021)：https://arxiv.org/abs/2103.08214

VCL(ECCV2020)：https://arxiv.org/abs/2007.12407

代码：https://github.com/zhihou7/HOI-CL

作者简介：侯志，悉尼大学博士二年级学生，导师陶大程，目前主要研究方向是人物交互检测和动作识别。

引言

人物交互是关系理解和动作识别两个任务里面的重要挑战。人物交互可以看成是动作和物体的结合，具有很明显的组合特点。由于组合爆炸性问题，少样本和零样本识别是人物交互检测的重要挑战。我们根据人物交互的组合特性，提出了一系列方法来缓解人物交互检测的少样本和组合性零样本问题，并且更进一步地提出功能迁移学习方法利用组合学习将人物交互检测的功能特征迁移到新物体上面，使得人物交互检测模型同时具备HOI检测和新物体的功能识别能力。

背景介绍

人物交互（HOI）学习目的是理解场景中人物关系，包括人和物的定位识别，以及交互的判别。人物交互理解对于关系学习，场景理解和动作理解都具有重要的意义。人物交互（Human-Object Interaction）最早来源于动作理解，相关人员发现人周边的被人交互的物体对于人的动作识别能够提供很强的判别信息。传统的针对人物交互的工作主要通过手工特征，通常比较繁琐。近年来，随着深度学习的发展以及相关人物交互检测大数据集的出现，研究人员对于人物交互检测的兴趣逐渐加强。

当前人物交互关系的一个重要的挑战是HOI数据集是一个严重的长尾分布。同时，现实中很多HOI样本是很难采集到的，这就给HOI 检测带来了另外一个问题：零次学习（Zero-Shot Learning）。整体来讲，长尾问题，少样本和零样本问题是当前HOI检测的重要挑战。

视觉场景都是由一些基础的元素组合出来的，比说物体，部分和其他的一些语义区域。同时，人类主要是通过一种组合感知的形式去感知这个世界的。对于HOI，人可以通过不同的HOI类型去想象出新的HOI类别。比如如果我们看到了骑车和喂马这两个动作，我们很容易想象出骑马是什么样的。受此启发，我们设计了一个视觉组合学习（Visual Compositional Learning）的框架，简写为VCL。具体地，我们将人物交互分解为动作和物体，然后去组合不同图片间提取出来的动作和物体，组合出新的HOI样本来解决HOI里面的长尾问题和组合型零次学习问题。该工作已经发表在ECCV2020。

图1：视觉组合学习

在这之后，我们进一步发现在HOI检测当中，HOI的长尾问题实际上主要因为动作和物体本身就分别是一个严重的长尾分布。事实上，动作和物体的长尾分布导致了HOI的严重的长尾问题。当前生成样本是一个有效的同时解决长尾和零次样本问题的方法。鉴于此，我们提出Fabricated Compositional Learning (FCL) 方法。FCL首先为每个动作生成与之可组合的所有物体特征，将生成的物体特征来与动作特征进行组合得到新的HOI特征来同时解决长尾，少样本和零样本问题。通过为每个动作生成一个平衡的物体特征样本，FCL可以进一步改善VCL在零样本和少样本的性能。与此同时，我们提出了一个开放长尾人物交互检测问题。如下图2所示，开放长尾人物交互检测同时针对不平衡问题，少样本问题和零样本问题。FCL可以很好地解决开放长尾任务交互检测问题。该工作已经被CVPR2021收录。

图2：开放长尾人物交互检测

VCL和FCL可以有效地解决长尾和零次样本问题。但是HOI里面我们怎么去识别已经知道的动作和未知的物体形成的HOI类别呢？也就是说待检测的HOI是一个< verb, novel object> 对。VCL和FCL的工作给了我们新的insight。VCL展示了我们可以将HOI的动作和物体特征相互组合来缓解长尾和零次学习问题。FCL进一步展示了，我们可以生成物体特征来与动作特征进行组合。既然如此，我们是否可以组合动作特征和来自任意图片的物体特征（例如检测数据集）呢？

是的。当我们能够对一个物体做一个动作的时候，实际上也表示着这个物体具备了相应的动作功能。本文中物体功能表示我们能对物体进行的动作。我们通过组合功能（也就是动作）特征和从检测数据集里面提取的新的物体特征，使human-novel- object 交互检测也成为可能。不同于利用language embedding来进行human-novel-object 交互检测，我们的特征更加真实，能够使网络更好地学习novel object的特征。

具体来说，我们可以从HOI数据集里面提取出功能（动作）特征，然后与一个提取出的novel object特征进行组合得到human-novel-object HOI特征，使网络具备识别具有全新物体类别的HOI。

与此同时，在我们的方法中，当我们将HOI的动作（功能）特征与物体特征来组合HOI的时候，我们实际上将动作特征也迁移到物体上面了，也就是说使HOI里面提取的功能特征可以与检测数据集里面的物体特征可以结合了。利用HOI的分类器，我们可以判别是否HOI图片里面提取的功能特征（动作特征）可以与物体图片里面的物体特征组合，也就是该物体是否具备某种动作功能（affordance）。

具体如图3所示，我们的功能迁移学习方法使HOI模型具备了识别新物体的HOI，同时也使HOI模型具备了识别物体功能（affordance）的能力。举例来说，我们让HOI里面提取的ride 特征与tiger组合新样本，使HOI模型能够识别<ride, tiger> 这个HOI，同时也使得HOI模型能够判断新物体（老虎（tiger），甚至骆驼是否可以rideable（被骑）。我们的方法大大提高了物体功能识别效果和新物体HOI的检测效果。该工作已经被CVPR2021收录。

图3：方法简介图

方法概述

我们提出了用物体检测数据集提取出来的物体特征与HOI数据集提取出来的动作（功能）特征组合出新的HOI训练样本来促进HOI检测问题，尤其是针对具有新物体类别的HOI。在组合的过程中，我们实际上将HOI数据集里面功能（affordance）特征表示迁移到了新的物体特征上面，使HOI模型具备了物体功能（affordance）识别的能力。

如图4所示，我们分别从HOI 图片和Object图片中根据union框，human 框和object框通过ROI pooling提取出动作（功能），人和物体的特征。人的特征跟手动设置的空间模式特征进行结合构成一个空间HOI样本输入到空间HOI分类器里面。功能特征首先跟HOI图片里面相对应的物体特征连接成一个HOI样本，同时我们将功能特征迁移到新的物体特征上面（组合功能特征和物体特征）得到新的组合的HOI样本。组合的HOI样本和HOI图片里面提取的HOI样本都输入到一个HOI分类器里面学习。对于不在特征空间里面的组合HOI样本，我们直接移除。

图4：整体结构图

去除HOI样本

为了方面地去除无效的组合样本，目前我们采用了一种简洁的方式。首先如公式一所示，我们利用verb-HOI

和object-HOI

共生矩阵分别得到HOI样本（y）的动作和物体类别

其中

是多标签类别。设定新物体的标签是

，我们可以得到组合的HOI样本的标签

（如下：

对于不在标签空间的，

会变成一个零向量。我们直接移除就可以了。

物体功能识别

通过功能迁移学习，我们不仅仅可以促进HOI的检测效果，我们同时也使得HOI模型可以来识别物体的功能。如图5所示，首先我们将HOI数据集（training set）里面的所有动作（功能）样本特征提取出来保存为一个功能特征集合。对于一个新的物体，我们首先用HOI的特征提取器提取物体特征，然后将物体特征与功能特征集合里面所有的功能特征来组合出新的HOI样本，放入到HOI分类器里面，让HOI分类器预测HOI类别，最后我们将HOI类别转化为功能（动作）类别。对于每一个功能，将预测出来的功能（动作）数量除以功能集合里面该功能的总数作为该功能的置信度。这样对于一个新物体，我们就得到这个物体的功能预测结果。

图5：HOI模型识别物体功能示意图。

实验结果

HICO- DET：基于两步的HOI检测方法，我们在不同的检测框上面验证了我们方法的有效性。同时我们更进一步地在一步的HOI检测方法上也验证了ATL的有效性，并且也取得了一步HOI检测的SOTA效果。

HOI-COCO：由于V-COCO主要针对动作识别（数据集里面只有两大类object，并且包含了很多非交互性的动作，point，smile），我们根据V-COCO构建了一个新的标准：HOI-COCO。HOI-COCO主要针对人物对的检测问题。在HOI- COCO上面，我们展示了我们方法的有效性，并且展示了将HICO-DET和COCO一起作为object数据，我们的方法能在HOI-COCO上面进一步提升。

Zero-shot：表三显示了我们在zero-shot上面的有效性。大大改善了新物体的人物交互检测结果。

Object Affordance Recognition：我们提出的方法大大改善了物体功能识别的结果。注：VCL和FCL都是组合学习的方法。也是我们前面两个工作。

总结与展望

我们在本文中提出了一种功能迁移学习方法将HOI的功能特征（动作特征）迁移到新的物体上面，促进了HOI检测效果，尤其是改善了HOI模型检测人和新物体交互的能力，并且使HOI模型具备了识别物体功能的能力。

我们相信人物交互不仅仅是对动作理解有帮助，对于物体的感知也是有促进作用的。动作是从人的角度上看人物交互问题，而功能（affordance）是从物体的角度上理解人物交互，接下来我们会继续从动作理解，物体感知，和组合学习的角度上探索人物交互的理解。

Reference

Hou Z, Peng X, Qiao Y, Tao D. Visual compositional learning for human-object interaction detection[C]//European Conference on Computer Vision. Springer, Cham, 2020: 584-600.
Hou Z, Yu B, Qiao Y, Peng X, Tao D. Detecting Human-Object Interaction via Fabricated Compositional Learning. CVPR2021
Hou Z, Yu B, Qiao Y, Peng X, Tao D. Affordance Transfer Learning for Human-Object Interaction Detection. CVPR2021

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2021-04-25，如有侵权请联系 cloudcommunity@tencent.com 删除

r 语言