深度学习论文(十)---Multiple-Human Parsing in the Wild

Towards Real World Human Parsing: Multiple-Human Parsing in the Wild J Li , J Zhao , Y Wei , C Lang , Y Li May 23 2017 https://arxiv.org/abs/1705.07206

这是今年5月份的一篇论文,我觉得有点意思所以就读了一下:

1、导引

之前很多做human parsing的工作都是考虑的一张图里面只有一个人,这种情况的确比较简单,因为现实世界很多时候的照片包含的人物不止一个,所以这篇文章的作者就考虑到这个问题,做了Multiple Human Parsing.

这篇文章的三个贡献点:

A、介绍了多人物分析问题,扩展了人物解析的研究范围,并在各种应用中更好地与真实世界情景相匹配。

B、他们新建了一个较大的Benchmark---Multiple Human Parsing (MHP) Dataset

C、他们提出来一个新的MH-Parser model用于multiple human parsing,结合了全局信息和局部信息,然后其表现超过了以往的那种简单的”detect-and-parse”的方法。

2、相关工作

A、Human parsing

这一部分我就不多说了,介绍了以前human parsing的各种方法。

B、Instance-aware object segmentation

这里提到了一个工作:Multi-task Network Cascades for differentiating instances. 应该是一个做instance segmentation的工作,这个论文我也还没有看过,之后有时间会去看一下。这个工作的分割不是特别细,也就是说它停留在person这个level,没有进一步对body part进行segment,但是之后我还是准备看一下,毕竟是做instance segmentation的。

3、MHP Dataset

这个Dataset包含4980张Img,每一张都至少有两个person在图中。每个前景人物都被标注了用人类专家的18种语义标签。

7个body parts:  “hair”, “face”, “left leg”, “right leg”, “left arm”, “right arm”, and “torso skin”

11个fashion categories: “hat”, “sunglasses”, “upper clothes”, “skirt”, “pants”, “dress”, “belt”, “left shoe”, “right shoe”, “bag”,  and “scarf” .

 MHP数据集中总共有14,969个人物级别的注释。980张用作testing set,3000张用于training set, 1000张作为validation set。

4、Multiple-Human Parsing Methods

①MH-Parser

包含5个部分:

A、Representationlearner

这是主干网络,是一个CNN特征器,它提取的特征由后面几个模块共享,这里使用全卷积网络,以保持 spatial 信息。

B、Global parser

 获取整幅图像的全局信息,就是对整幅图来做个parsing

C、Candidate nominator

包括三个子模块Region Proposal Network(RPN), abounding box classifier andabounding box regression,类似于 Faster RCNN,将每个人检测出来,得到矩形框

D、Local parser

 针对每个含有人的矩形框,进行 semantic labels 语义标记

E、Global-localaggregator

同时将 local parser and the global parser 网络中隐含的信息输入,用于单人矩形框的semantic parsing predictions

②Detect-and-parse baseline

分为两个不同的阶段,detection stage和parsing stage. 在detection stage中,把representation learner和candidate nominator 作为detection model,在parsing stage中,把representation learner和local prediction作为parsing model.

注意这两个阶段的representation learner是相互独立不分享信息的。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI2ML人工智能to机器学习

概率估值的光滑(Smoothing)

一般通过频率(Frequency / Counting)来估值的过程中,存在需要光滑(Smoothing)的问题, 这个问题在自然语言处理或者贝叶斯算法中尤为突...

2172
来自专栏AI科技评论

学界 | 谷歌语音识别端到端系统单词错误率降至5.6%,较传统模型提升16%

AI 科技评论按:本文是由来自谷歌语音团队的科学家 Tara N. Sainath 和来自谷歌大脑团队的科学家 Yonghui Wu 共同撰写的,文中简单介绍了...

2696
来自专栏深度学习入门与实践

【深度学习Deep Learning】资料大全

  最近在学深度学习相关的东西,在网上搜集到了一些不错的资料,现在汇总一下: Free Online Books Deep Learning66 by Yosh...

6069
来自专栏机器之心

NIPS 2018 | Edward2.2,一种可以用TPU大规模训练的概率编程

深度学习的很多研究结果都模糊了模型和计算之间的界限,有的甚至表明是一种「可微分编程」的新范式,它们的目标不仅仅是训练模型,同时还希望实现一般的程序综合体。在这一...

962
来自专栏算法channel

铁粉巨献:某独角兽公司数据挖掘工程师岗位 2000字面试总结

感谢铁粉:地球球长,奉献出自己的面试经验,面经总结的非常认真、详细、用心。这是球长同学第二次无私地奉献他的面经了,上一篇面经 ( @all: 新浪 机器学习算...

720
来自专栏新智元

谷歌发布迄今最准确商用端到端语音识别系统,词错率将至5.6%,性能提升16%

来源:research.googleblog.com 【新智元导读】谷歌大脑和Speech团队发布最新端到端自动语音识别(ASR)模型,词错率将至5.6%,相比...

3365
来自专栏专知

【干货】理解特征工程Part 1——连续数值数据(附代码)

5241
来自专栏AI科技大本营的专栏

AI技术讲座精选:用端到端训练模型进行语法智能纠错

现有的拼写检查系统可以识别拼写错误,但无法识别出语法错误,本文的亮点在于使用流行的 seq2seq + attention 模型,在大规模拼写检查数据集上进行训...

5309
来自专栏iOSDevLog

十个主题,最全的优秀 TensorFlow 相关资源列表

44811
来自专栏专知

【干货荟萃】机器学习&深度学习知识资料大全集(二)(论文/教程/代码/书籍/数据/课程等)

【导读】转载来自ty4z2008(GItHub)整理的机器学习&深度学习知识资料大全荟萃,包含各种论文、代码、视频、书籍、文章、数据等等。是学习机器学习和深度学...

42012

扫码关注云+社区