首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >论文阅读学习 - ModaNet: A Large-scale Street Fashion Dataset with Polygon Annotations

论文阅读学习 - ModaNet: A Large-scale Street Fashion Dataset with Polygon Annotations

作者头像
AIHGF
发布2019-02-27 17:36:16
1.1K0
发布2019-02-27 17:36:16
举报
文章被收录于专栏:AIUAIAIUAI

原文:论文阅读学习 - ModaNet: A Large-scale Street Fashion Dataset with Polygon Annotations - AIUAI

题目:ModaNet: A Large-Scale Street Fashion Dataset with Polygon Annotations - 2018 作者:Shuai Zheng,Fan Yang,M. Hadi Kiapour,Robinson Piramuthu 团队:eBay Inc.

论文主要是介绍了构建的大规模街拍服装图像数据集. 可用于语义分割,实例分割和目标检测等任务.

ModaNet 基于多边形标注的大规模街拍服装数据集 - AIUAI

1. ModaNet 数据集

1.1. 数据集标注

[1] - 首先从 PaperDoll 数据集中收集了一百万(1 million) 张图像.

[2] - 然后,采用在 COCO 数据集上预训练的 Faster R-CNN 模型,检测出图片中只有一个 的图像,以仅收集单个人的图像.

[3] - 对于所选择的图像中的初始数据集,进一步手工筛选 2000 张由于图片质量低而不适合进行标注的图片,以及 2000 张高质量的图片用于进行标注.

对于这 4000 张图片,采用 ImageNet 上预训练的 ResNet50 模型,并 finetune 模型最后一层,以作为图片质量的分类器.

然后,将分类器对初始数据集中全部图像进行分类,以选取高质量且只包含单个人的图片. 因此,有效的减少了手工标注者所标注的低质量图片量.

[4] - 将筛选出的图片送于手工标注者进行打标.

1.2. 数据集统计

ModaNet 数据集共包含 13 个服饰类别:bag, belt, boots, footwear, outer, dress, sunglasses, pants, top, shorts, skirt, headwear, scarf&tie.

如下:

标注结果如:

标注的数据分布统计:

1.3. 与其它服饰数据集对比

DeepFashion - DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich Annotations. CVPR - 2016

CFPD - Fashion Parsing With Weak Color-Category Labels. IEEE Trans. Multimedia - 2014

CCP - Clothing Co-parsing by Joint Image Segmentation and Labeling. CVPR - 2014

Fashionista - Parsing clothing in fashion photographs. CVPR - 2012

HPW - Deep Human Parsing with Active Template Regression - 2015

2. ModaNet 应用场景

2.1. 服饰目标检测

服饰目标检测,其可以定位服饰单品的位置bbox,并给出 bbox 的服饰类别. 还可进一步应用于搜索与商品推荐.

2.1.1. 服饰 Groundtruth bbox 生成

在对图像进行了像素级和多边形标注后,可以很方便地推断出训练图片的边界框.

这里,采用从多边形标注数据生成的边界框作为边界信息. 处理后,将整个数据集划分为训练数据集(52337 张图片)和验证数据集(2799 张图片). 保证了 验证集内每个类别至少包含 500 个实例.

2.1.2. 不同服饰检测方法对比

对于数据集采用了 Faster RCNN(基础网络 Inception-ResNet), SSD(基于 InceptionV2) 和 YOLO(基于 InceptionV2) 三种模型,训练目标检测器.

目标检测器结果对比:

2.2. 服饰语义分割

服饰语义分割,是对图像中服饰的像素级理解.

2.2.1. 服饰 Groundtruth segmentation

基于图片的多边形标注,可以生成图像的像素级标注.

对于覆盖了单个目标的多边形标注,可以直接转换为对应的像素级标注.

处理后,将整个数据集划分为训练数据集(52337 张图片)和验证数据集(2799 张图片).

2.2.2. 不同服饰分割方法对比

采用了 FCNs, CRFasRNN 和 DeepLabv3+ 语义分割方法.

FCNs,基于 VGG+BN 和 Caffe 框架(https://github.com/shelhamer/fcn.berkeleyvision.org).

CRFasRNN,基于 Caffe 框架(https://github.com/torrvision/crfasrnn).

DeepLabv3+,基于TensorFlow 框架和 ImageNet 预训练的 Xception-65 模型(https://github.com/tensorflow/models/tree/master/research/deeplab).

不同语义分割方法结果对比:

2.3. 服饰多边形预测及颜色属性预测原型

服饰多边形预测 - PolygonRNN 和 Polygon-RNN++ 方法.

服饰语义分割的一个应用是,预测给定服饰商品的颜色属性名. 首先对服饰进行语义分割,然后对于分割的每块求取颜色平均 RGB 值,并映射到细分类的颜色命名空间. 方法原型预测结果如:

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018年12月29日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. ModaNet 数据集
    • 1.1. 数据集标注
      • 1.2. 数据集统计
        • 1.3. 与其它服饰数据集对比
        • 2. ModaNet 应用场景
          • 2.1. 服饰目标检测
            • 2.1.1. 服饰 Groundtruth bbox 生成
            • 2.1.2. 不同服饰检测方法对比
          • 2.2. 服饰语义分割
            • 2.2.1. 服饰 Groundtruth segmentation
            • 2.2.2. 不同服饰分割方法对比
          • 2.3. 服饰多边形预测及颜色属性预测原型
          相关产品与服务
          图像识别
          腾讯云图像识别基于深度学习等人工智能技术,提供车辆,物体及场景等检测和识别服务, 已上线产品子功能包含车辆识别,商品识别,宠物识别,文件封识别等,更多功能接口敬请期待。
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档