前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >图像理解--Detecting and Recognizing Human-Object Interactions

图像理解--Detecting and Recognizing Human-Object Interactions

作者头像
用户1148525
发布2019-05-26 12:09:18
1.1K0
发布2019-05-26 12:09:18
举报

Detecting and Recognizing Human-Object Interactions https://arxiv.org/abs/1704.07333

大牛们已经从图像的检测分割向图像理解的研究方向过渡了!

本文主要关注图像中的 人 和 物体的关系检测和识别,这种关系可以用一个三元素 《human, verb, object》 来描述,这里我们提出一个 human-centric model 来检测人和物的关系。

这里写图片描述
这里写图片描述

这里我们主要根据 person’s appearance 来给出action 类别概率及关联物体的位置。

在我们提出的方法 InteractNet 中,使用了 Faster R-CNN 检测框架,对于含有人的一个候选区域 RoI, human-centric recognition 分支进行 action classification 和 action 关联的物体位置的 density estimation。密度估计器给出一个4维的高斯分布,对于每个 action type,主要对人和物体的相对位置进行建模。这种预测纯粹基于 person appearance

这里写图片描述
这里写图片描述

上图是我们模型的检测效果图示例图

模型框架如下图所示:

这里写图片描述
这里写图片描述

3.1. Model Components Object Detection 这个分支和 Faster R-CNN 完全一样,使用 Region Proposal Network (RPN) 提取候选区域,然后进行分类和矩形框坐标回归,得到人和物体的类别及位置矩形框和对应的概率,在 inference 是只是用检测出人和物体的候选区域,在训练时使用RPN提取的所有候选区域

Action Classification human-centric 分支的第一个任务就是对每一个human box b_h 和 action a 赋予一个 action classification score,因为人可以同时进行多种动作,所有我们这里进行多类别东西分类。

Target Localization human-centric 分支的第二个任务就是基于人的 appearance 预测相关联物体的位置,直接预测位置难度较大,这里我们给出物体位置的密度概率。

这里我们将这个密度使用基于human appearance 和 正在进行的动作的高斯函数来建模 We model the density over the target object’s location as a Gaussian function whose mean is predicted based on the human appearance and action being performed.

这里写图片描述
这里写图片描述

Interaction Recognition 为了提高模型的表达能力,我们这里进一步利用了 the appearance of the target object,得到一个新的分支 interaction branch

3.2. Multi-task Training 我们将人-物关系的学习看做一个多任务学习问题,所有三个分支是共同训练的。 损失函数定义: Our overall loss is the sum of all losses in our model including: (1) the classification and regression loss for the object detection branch, (2) the action classification and target localization loss for the human-centric branch, and (3) the action classification loss of the interaction branch.

3.3. Cascaded Inference 在Inference 阶段,我们使用了 Cascaded 来降低时间复杂度,关键是只对人的矩形框进行相关处理! 实现 ∼ 135ms on a typical image running on a single Nvidia M40 GPU

这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

我们方法检测失败的例子:

这里写图片描述
这里写图片描述
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2017年06月05日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档