专栏首页AIUAI论文阅读理解 - Automatic Spatially-aware Fashion Concept Discovery

论文阅读理解 - Automatic Spatially-aware Fashion Concept Discovery

论文阅读理解 - Automatic Spatially-aware Fashion Concept Discovery

[Paper - Automatic Spatially-aware Fashion Concept Discovery - ICCV2017]

[Fashion200K - Dataset]

主要是应用属性(Attributes)在图片中的空间位置信息,表现为 activation map 形式; 结合 Word2Vec 生成文本描述的特征向量. 可用于图像检索(基于attributes-feedback),数据集中特定属性的图像浏览.

对比一般图片,服装图片的特点:

  • 服装易受形变影响;
  • 风格(style)和纹理(texture) 的变化显著;
  • 最重要的是,low-level 的视觉和用户 high-level 需求之间长期存在较大的语义鸿沟.
  • 对于用户来说,不仅需要颜色(color) 和纹理(texture)的特征,还需要 high-level 特征,如领型(neckline)、袖长(sleeve length)、裙长(dress length) 等.
  • 领型属性往往对应于图片的靠上部分;袖长属性一般在图片的左右两边.

服装属性特点分析.

基于 weakly labeld image-text 电商数据 —— Fashion200K.

  • 首先,采用微调 GoogleNet,对服装图片和其对应的属性描述联合建模到一个视觉语义嵌入空间(visual-semantic embedding space).
  • 然后,对于每一个属性(word),通过结合其语义词向量表示(semantic word vector respentation) 和其由微调网络卷积图(conv map)得到的空间表示(spatial respentation),来生成各属性的 spatial-aware 表示.
  • 对得到的 spatial-aware 表示,聚类到各个不同的组,以形成属性概念(spatially-aware concepts),如领型概念可能包括的属性有:V-领,圆领等;
  • 最后,将视觉嵌入语义空间分解为多个不同概念的子空间(concept-specific subspaces),有助于结构化浏览、基于属性反馈(attribute-feedback)的检索等.

方法优势:

  • 1,说明了属性和其空间表示的语义词向量,可以有效的用于聚类得到语义丰富和 spatially-aware 概念(concepts).
  • 2,利用视觉语义空间中的语义规律,以进行基于 attribute-feedback 的服装图片检索.

1. Fashion200K 服装数据集

Fashion200K:

  • 超过 200000 张服装图片,5 类(dress, top, pants, skirt, jacket),对应的商品描述.
  • 172049 张训练,12164 张测试,25331 张测试
  • 4404 个属性用于训练
  • MultiBox 模型检测图片,只采用检测到的前景部分作为输入.

2. Approach

方法主要包括的关键部分:

  • 视觉语义嵌入学习 visual-semantic embedding learning
  • 空间概念挖掘 spatially-aware concept discovery
  • 概念子空间学习 concept subspace learning

方法利用了属性(attribute) 的空间信息. 不同类型服装的相同属性(如,短裙和短裤的 short 属性)具有不同的空间特点.

针对每一类服装分别训练模型.

2.1 视觉语义嵌入学习

通过将商品图片和对应的文本描述投影到一个联合嵌入空间,根据 image-text pairs 来训练视觉语义嵌入模型.

  • 对图片,主要是基于 GoogleNet 模型学习图片特征向量,然后将特征响亮投影到嵌入空间.
  • 对文本,主要是采用 Bag of Words 来得到其文本描述.

采用 cosine 相似度来度量图片和其描述的距离:d(x,v)=x⋅vd(x,v)=x⋅vd(\mathbf{x}, \mathbf{v}) = \mathbf{x} \cdot \mathbf{v}.

联合嵌入空间训练的最优化函数为 contrastive loss:

vkvk\mathbf{v} _k - 图片 xx\mathbf{x} 的 non-mathching 描述;

xkxk\mathbf{x}_k - 描述 vv\mathbf{v} 的 non-matching 图片;

最小化该 loss 函数的目标,

  • 使得图片 xx\mathbf{x} 与其对应的文本描述 vv\mathbf{v} 之间的距离小于该图片与未匹配的文本描述 vkvk\mathbf{v_k} 之间的距离,基于某个边缘参数 mmm.
  • 使得描述 vv\mathbf{v} 与其对应的图片 xx\mathbf{x} 之间的距离小与该描述与未匹配的图片 xkxk\mathbf{x_k} 之间距离.

2.2 空间概念挖掘

视觉语义嵌入模型的联合训练,能够得到判别性 CNN 模型,不仅包含了语义信息(如,最后一个 embedding 层),还包括隐藏在网络里的空间信息.

  • 属性空间表示 属性的空间信息对于理解服装商品的属性位置很重要. 采用 EAAM(Embedding Attribute Activation Maps) 来定位图片中属性的显著区域,基于训练网络,单次 forward 计算. 电商图片往往是背景简单,且正向对齐的. 对于服装类别的每一个属性,其 AAM 信息可以作为一种空间表示. 如果两个属性描述的是服装类别的相似空间部分,如 sleeveless 和 long-sleeve,或 v-neck 和 mockneck 等,那么它们的空间信息应该是相似的.
  • 属性语义表示 仅仅根据空间信息还不足以有效的挖掘服装概念,尤其是对于属性的判别性空间表示不够时. 对服装商品的描述训练 skip-gram model ,以得到数据集所有属性的语义表示(Word2vec Vectors).
  • 属性聚类 Attribute Clustering 理想情况下, 属于相同概念的属性应该描述服装类别的相同特点. 即,具有空间一致性和语义相似性. K-means 聚类算法对所有属性聚类,得到不同的属性组.
  • 概念子空间学习 挖掘得到的概念(concepts) 用于进一步提升(refine) 学习的联合视觉语义空间,使得商品(items)间的相似性可以通过每个独立的概念进行度量,如 color 和 neckline 可以得到不同的相似性. 当客户需要改变某方面属性来提升搜索结果,或者希望基于某一个概念来浏览商品时,概念子空间学习是有必要的. 给定由属性聚类来挖掘的到的概念,进一步对每个 concept 训练子网络,构建 concepy-specific 子空间. 子网络结构:一层全连接网络层和一个 softmax 网络层. 子空间训练后,concept 子空间特征能够学习 concept 的属性(attributes). 因此,只基于该 concept 能够进行图片间的相似性度量. 如,在 color 子空间中,blue maxi dress 与 blue mini dress 间的相似性高于其与 red maxi dress 的相似性. 然而,在 dress length 子空间中,red maxi dress 与 blue maxi dress 的相似性更高.

3. Experiment

  • 服装检测 - MultiBox
  • 视觉语义嵌入 - GoogleNet InceptionV3,2048-dim 特征
  • 空间概念挖掘 - CNN 最后一层卷积层 feature map 尺寸 8×8×20488×8×20488×8×2048,attribute map 尺寸 8×88×88×8. 向量化 activation map,每个属性的空间表示转化为 64 维特征向量. Word2Vec 训练时的 word 向量维度也设为 64. 聚类中心固定为 50.
  • 子空间特征学习

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • FashionAI 天池竞赛 - Top5 技术方案简汇

    阿里天池关于服装属性标签识别的竞赛的 Top5 团队的技术方案 PPT 汇总. 可以在竞赛主页观看技术方案的答辩视频.

    AIHGF
  • OpenCV4.X - DNN模块 Python APIs

    原文: OpenCV4.X - DNN模块 Python APIs - AIUAI

    AIHGF
  • 分类算法总结

    (本文来自网上,具体出处不可查,此处转载,以备后查,请原作者见谅) 分类算法总结: -------------------------------...

    AIHGF
  • SAP 深入理解SAP DB2表空间(Tablespace)

    表空间是数据库系统中数据库逻辑结构与操作系统物理结构之间建立映射的重要存储结构,它作为数据库与实际存放数据的容器之间的中间层,用于指明数据库中数据的物理位置。任...

    matinal
  • MyBatis 基本构成与框架搭建

            根据配置信息(eg:mybatis-config.xml)或者代码来生成SqlSessionFactory。

    Rekent
  • Java 几种排序算法 与时间空间复杂度

    heasy3
  • 各种基本算法实现小结(五)—— 排序算法

    * 选择排序 |____简单选择排序 |____堆排序 |____归并排序 * 交换排序 |____冒泡排序 |____快速排序 * 插入排序 |____直...

    阳光岛主
  • P1972 [SDOI2009]HH的项链

    题目背景 无 题目描述 HH 有一串由各种漂亮的贝壳组成的项链。HH 相信不同的贝壳会带来好运,所以每次散步完后,他都会随意取出一段贝壳,思考它们所表达的含义。...

    attack
  • java每日一练(2017/8/11)

    (单选题) 1、关于下面的程序Test.java说法正确的是( )。 publicclass Test { staticString x="1"; sta...

    Java学习
  • 剑指offer 数组中的逆序对

    在数组中的两个数字,如果前面一个数字大于后面的数字,则这两个数字组成一个逆序对。输入一个数组,求出这个数组中的逆序对的总数P。并将P对1000000007取模的...

    week

扫码关注云+社区

领取腾讯云代金券