AI Challenger:深入图像理解大型数据集

泡泡图灵智库,带你精读机器人顶级会议文章

标题:AI Challenger : A Large-scale Dataset for Going Deeper in Image Understanding

作者:Jiahong Wuy, He Zhengy, Bo Zhaoy, Yixin Liy,

Baoming Yany, Rui Liangy,Wenjia Wang, Shipei Zhou, Guosen Lin, Yanwei Fu, Yizhou Wang, Yonggang Wangz

来源:AI Challenger

播音员:

编译:侯延华

审核:谢泽茹

欢迎个人转发朋友圈;其他机构或自媒体如需转载,后台留言申请授权

摘要

计算机视觉取得了重大进展,这有赖于大规模数据集,然而在分类以外更复杂的应用(人体关键点检测、zero-shot识别、中文图像说明)中仍然缺少足够的数据集。 本文提出大规模数据集AIC,其中包含3个子数据集:

HKD:人体关键点检测,包含300,000张图片(主要人物关键点)

LAD:大规模属性数据集, 包含

81,658 张图片,240 类 and 359 属性

ICC:中文图像说明数据集,300,000 张图片

这些数据集沟通了底层图像和高层概念间的语义鸿沟,可以作为检验和提高算法的基准。

子数据集HDK,ICC有超过95%的重叠,便于协同处理两个不同的任务。

主要贡献

本文提出的数据集提供了

1、评估各种计算机视觉算法的基准。

2、预训练各种模型的资源。

3 、就我们所知是目前第一个中文图像说明数据集。

算法流程

1人体关键点检测

人体关键点检测在姿态估计、行为识别、非正常行为检测中有很重要作用,然而人物数量、位置、尺度,人物间交互、遮挡等因素使得这个任务非常具有挑战性。人体关键点检测大致包括top-down,bottom-up两类方法,CNN有着广泛的应用,通常需要大规模有标记数据集避免过拟合,现有数据集主要有MSCOCO,MPII

图1 人体关键点数据集对照表

1.1、样本标记说明:

1右肩,2-右肘, 3-右手腕,4左肩,5-左肘, 6-左手腕,

7-右胯, 8-右膝, 9-右脚踝,10-左胯, 11-左膝, 12-左脚踝,

13-头顶, 14 颈

每个关键点有3个标签 :标记并可见,标记不可见, 未标记.

图2 不同类型关键点的分布

1.2. 使用二阶中心矩评估人工标记引入的噪声,是每类关键点到其中心的欧式距离的方差的最大似然估计。

图3 人工标记的偏差和姿态多样性(a)浅色圆的半径代表该类型关键点人工标记的偏差,反应了预测的难度(b)随机抽取100人对齐后绘制的四肢。

1.3、关键点检测评价指标

1.4. baseline model & experiment

本文使用了预训练模型:

Detector:

模型:Single Shot MultiBox Detector

数据集:Pascal VOC

输出:human boundingboxes

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

模型:Mask R-CNN/DeepLab

数据集:MSCOCO

输出:human masks

1.5.实验结果

2.基于属性的零样本识别 (ZSR)

2.1现有数据集存在样本量少、缺乏语义属性、与imageNet相似度过高、分布有偏等问题。

表3 属性数据集对照表(*表示估计)

图4 数据集示例

既标记了视觉属性也标记了语义属性

2.2Baseline Methods

首先将图像和标签嵌入到图像特征空间(使用了 ImageNet 数据集ResNet 预训练模型 )

测试了3种基本方法

SOC:用可见数据学习从图像特征空间到语义嵌入空间的线性映射函数。

ESZSL:学习映射来衡量图像特征和语义嵌入的相容性。

MDP:学习语义嵌入的局部结构

2.3实验结果

MDP优于ESZSL优于SOC

表4 3种方法的零样本识别对照表

3.中文图像说明

早期处理这一任务的方法分两种基于模板的和基于检索的。

近期的方法采用了

encoder-decoder:通过cnn 将图像编码为特征向量,然后送入rnn 产生文字说明。

强化学习框架:policy network和value network协同产生文字说明。

可用的数据集Pascal VOC 2008,Flickr8k,Flickr30k,MSCOCO, SBU都是英文数据集,分别包含大约8,000, 31,000 ,300,000 幅图像及5 句英文说明。就我们所知ICC是规模最大的中文说明数据集。

表5数据集对照表

本文使用了show and tell模型,属encoder-decoder框架:意在最大化正确描述的概率。

采用中文"Jieba"分词器,实验结果见表6

表6

图8数据集示例

前5句人类标记,

第6句 baseline model 在MSCOCO数据集上产生,

第7句 baseline model 在ICC数据集上产生,

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20191029A01KZ700?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券