摘要—— 主要两部分:(1)建立Look into Person(LIP)数据集;(2)提出self-supervised structure-sensitive learning 方法,将人体姿态结果作为人体解析的额外监督(模型训练时不需要人工标注人体关节点).
几种不同的标注数据集. (1)ATR 数据集的图片是固定尺寸的(400*600),仅是室外站立的模特,电商图片类适应. (2) PASCAL-Person-Part 数据集的图片只有6种不同的语义标签,与人相关的也较粗糙. (3)LIP数据集多样性和复杂性更高.
LIP数据集:
labels 顺序 | LIP提供的标注 | 正确的标注 | 正确的标注 |
---|---|---|---|
0 | Background | Background | 背景 |
1 | Hat | Hat | 帽子 |
2 | Hair | Hair | 头发 |
3 | Sunglasses | Glove | 手套 |
4 | Upper-clothes | Sunglass | 太阳镜 |
5 | Dress | Upper-clothes | 上衣 |
6 | Coat | Dress | 连衣裙 |
7 | Socks | Coats | 外套 |
8 | Pants | Socks | 袜子 |
9 | Glove | Pants | 裤子;短裤 |
10 | Scarf | Jumpsuits | 连衣裤 |
11 | Skirt | Scarf | 围巾 |
12 | Jumpsuits | Skirt | 裙子 |
13 | Face | Face | 脸 |
14 | Right-arm | Left-arm | 左胳膊 |
15 | Left-arm | Right-arm | 右胳膊 |
16 | Right-leg | Left-leg | 左腿 |
17 | Left-leg | Right-leg | 右腿 |
18 | Right-shoe | Left-shoes | 左鞋 |
19 | Left-shoe | Right-shoes | 右鞋 |
人体解析 —— 像素级语义标注
人体估计 —— 关节点结构预测
提出了自监督结构敏感损失函数来评价关节点结构引导的人体解析结果的效果.
Figure6. 方法图示. 输入图像经过网络卷积层处理生成解析结果. 通过计算人体解析图的对应区域的中心点,来得到的关节点和关节点的groundtruth的 heatmaps,9 个关节点分别为 head (H), upper body (U), lower body (L), right arm (RA), left arm (LA), right leg (RL), left leg (LL), right shoe(RS), left shoe (LS). 对 segmentation loss 和 joint structure loss的加权计算来得到 structure-sensitive loss.