深度学习论文(十)---Multiple-Human Parsing in the Wild

Towards Real World Human Parsing: Multiple-Human Parsing in the Wild J Li , J Zhao , Y Wei , C Lang , Y Li May 23 2017 https://arxiv.org/abs/1705.07206

这是今年5月份的一篇论文,我觉得有点意思所以就读了一下:

1、导引

之前很多做human parsing的工作都是考虑的一张图里面只有一个人,这种情况的确比较简单,因为现实世界很多时候的照片包含的人物不止一个,所以这篇文章的作者就考虑到这个问题,做了Multiple Human Parsing.

这篇文章的三个贡献点:

A、介绍了多人物分析问题,扩展了人物解析的研究范围,并在各种应用中更好地与真实世界情景相匹配。

B、他们新建了一个较大的Benchmark---Multiple Human Parsing (MHP) Dataset

C、他们提出来一个新的MH-Parser model用于multiple human parsing,结合了全局信息和局部信息,然后其表现超过了以往的那种简单的”detect-and-parse”的方法。

2、相关工作

A、Human parsing

这一部分我就不多说了,介绍了以前human parsing的各种方法。

B、Instance-aware object segmentation

这里提到了一个工作:Multi-task Network Cascades for differentiating instances. 应该是一个做instance segmentation的工作,这个论文我也还没有看过,之后有时间会去看一下。这个工作的分割不是特别细,也就是说它停留在person这个level,没有进一步对body part进行segment,但是之后我还是准备看一下,毕竟是做instance segmentation的。

3、MHP Dataset

这个Dataset包含4980张Img,每一张都至少有两个person在图中。每个前景人物都被标注了用人类专家的18种语义标签。

7个body parts:  “hair”, “face”, “left leg”, “right leg”, “left arm”, “right arm”, and “torso skin”

11个fashion categories: “hat”, “sunglasses”, “upper clothes”, “skirt”, “pants”, “dress”, “belt”, “left shoe”, “right shoe”, “bag”,  and “scarf” .

 MHP数据集中总共有14,969个人物级别的注释。980张用作testing set,3000张用于training set, 1000张作为validation set。

4、Multiple-Human Parsing Methods

①MH-Parser

包含5个部分:

A、Representationlearner

这是主干网络,是一个CNN特征器,它提取的特征由后面几个模块共享,这里使用全卷积网络,以保持 spatial 信息。

B、Global parser

 获取整幅图像的全局信息,就是对整幅图来做个parsing

C、Candidate nominator

包括三个子模块Region Proposal Network(RPN), abounding box classifier andabounding box regression,类似于 Faster RCNN,将每个人检测出来,得到矩形框

D、Local parser

 针对每个含有人的矩形框,进行 semantic labels 语义标记

E、Global-localaggregator

同时将 local parser and the global parser 网络中隐含的信息输入,用于单人矩形框的semantic parsing predictions

②Detect-and-parse baseline

分为两个不同的阶段,detection stage和parsing stage. 在detection stage中,把representation learner和candidate nominator 作为detection model,在parsing stage中,把representation learner和local prediction作为parsing model.

注意这两个阶段的representation learner是相互独立不分享信息的。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量化投资与机器学习

LSTM Networks在股票市场上的探究

LSTM Networks 简介 LSTM Networks是递归神经网络(RNNs)的一种,该算法由Sepp Hochreiter和Jurgen Schmid...

2747
来自专栏专知

概率论之概念解析:引言篇

【导读】专知这两天推出概率论之概念解析系列:极大似然估计和贝叶斯推断进行参数估计,大家反响热烈,数据科学家Jonny Brooks-Bartlett的系列博客深...

2895
来自专栏AI科技评论

从 Vision 到 Language 再到 Action,万字漫谈三年跨域信息融合研究

阿德莱德大学助理教授吴琦回顾了他从跨领域图像识别到 Vision-to-Language 相关的研究思路,如今正将研究领域延伸到与 Action 相关的工作。

882
来自专栏专知

【计算机视觉近一年进展综述】《A Year in Computer Vision》by The M Tank

【导读】计算机视觉近一年进展综述,本报告仅仅是为了简要的总结下2016近一年在计算机领域的一些重要进展。第一部分:分割/定位,目标检测,目标追踪。第二部分:分割...

4825
来自专栏Vamei实验室

信号与频谱

信号(singal)简介 我们在生活中经常遇到信号。比如说,股票的走势图,心跳的脉冲图等等。在通信领域,无论是的GPS、手机语音、收音机、互联网通信,我们发送和...

1839
来自专栏云时之间

NLP系列学习:CRF条件随机场(1)

大家好,今天让我们来看看条件随机场,条件随机场是一项大内容,在中文分词里广泛应用,因为我们在之前的文章里将概率图模型和基本的形式语言知识有所了解,当我们现在再去...

4385
来自专栏阮一峰的网络日志

TF-IDF与余弦相似性的应用(一):自动提取关键词

这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。 有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extract...

2796
来自专栏测试开发架构之路

大话移动通信(一)

数字系统由于模拟系统:长距离传输没有噪声叠加;便于保密。 贝尔电话之  接收信号 何为信号?信号的时域概念 周期信号:正弦波(单一频率) 信号的频域概念:电磁信...

3316
来自专栏AI研习社

说到修图这件事,你还真是比不上AI | 2分钟读论文

来源 / Two Minute Papers 翻译 / 林立宏 校对 / J叔 整理 / 雷锋字幕组 本期论文 Visual Attribute Transfe...

2778
来自专栏星回的实验室

特征选择的评估方法

数据挖掘中,特征选择的过程就是计算特征与样本观测结果的相关性。卡方检验和互信息是用得较多的计算方法。

601

扫码关注云+社区