前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >论文阅读理解 - Automatic Spatially-aware Fashion Concept Discovery

论文阅读理解 - Automatic Spatially-aware Fashion Concept Discovery

作者头像
AIHGF
发布2019-02-18 09:44:48
8210
发布2019-02-18 09:44:48
举报
文章被收录于专栏:AIUAIAIUAI

论文阅读理解 - Automatic Spatially-aware Fashion Concept Discovery

[Paper - Automatic Spatially-aware Fashion Concept Discovery - ICCV2017]

[Fashion200K - Dataset]

主要是应用属性(Attributes)在图片中的空间位置信息,表现为 activation map 形式; 结合 Word2Vec 生成文本描述的特征向量. 可用于图像检索(基于attributes-feedback),数据集中特定属性的图像浏览.

对比一般图片,服装图片的特点:

  • 服装易受形变影响;
  • 风格(style)和纹理(texture) 的变化显著;
  • 最重要的是,low-level 的视觉和用户 high-level 需求之间长期存在较大的语义鸿沟.
  • 对于用户来说,不仅需要颜色(color) 和纹理(texture)的特征,还需要 high-level 特征,如领型(neckline)、袖长(sleeve length)、裙长(dress length) 等.
  • 领型属性往往对应于图片的靠上部分;袖长属性一般在图片的左右两边.
这里写图片描述
这里写图片描述

服装属性特点分析.

基于 weakly labeld image-text 电商数据 —— Fashion200K.

  • 首先,采用微调 GoogleNet,对服装图片和其对应的属性描述联合建模到一个视觉语义嵌入空间(visual-semantic embedding space).
  • 然后,对于每一个属性(word),通过结合其语义词向量表示(semantic word vector respentation) 和其由微调网络卷积图(conv map)得到的空间表示(spatial respentation),来生成各属性的 spatial-aware 表示.
  • 对得到的 spatial-aware 表示,聚类到各个不同的组,以形成属性概念(spatially-aware concepts),如领型概念可能包括的属性有:V-领,圆领等;
  • 最后,将视觉嵌入语义空间分解为多个不同概念的子空间(concept-specific subspaces),有助于结构化浏览、基于属性反馈(attribute-feedback)的检索等.
这里写图片描述
这里写图片描述

方法优势:

  • 1,说明了属性和其空间表示的语义词向量,可以有效的用于聚类得到语义丰富和 spatially-aware 概念(concepts).
  • 2,利用视觉语义空间中的语义规律,以进行基于 attribute-feedback 的服装图片检索.

1. Fashion200K 服装数据集

Fashion200K:

  • 超过 200000 张服装图片,5 类(dress, top, pants, skirt, jacket),对应的商品描述.
  • 172049 张训练,12164 张测试,25331 张测试
  • 4404 个属性用于训练
  • MultiBox 模型检测图片,只采用检测到的前景部分作为输入.
这里写图片描述
这里写图片描述

2. Approach

方法主要包括的关键部分:

  • 视觉语义嵌入学习 visual-semantic embedding learning
  • 空间概念挖掘 spatially-aware concept discovery
  • 概念子空间学习 concept subspace learning

方法利用了属性(attribute) 的空间信息. 不同类型服装的相同属性(如,短裙和短裤的 short 属性)具有不同的空间特点.

针对每一类服装分别训练模型.

2.1 视觉语义嵌入学习

通过将商品图片和对应的文本描述投影到一个联合嵌入空间,根据 image-text pairs 来训练视觉语义嵌入模型.

  • 对图片,主要是基于 GoogleNet 模型学习图片特征向量,然后将特征响亮投影到嵌入空间.
  • 对文本,主要是采用 Bag of Words 来得到其文本描述.

采用 cosine 相似度来度量图片和其描述的距离:d(x,v)=x⋅vd(x,v)=x⋅vd(\mathbf{x}, \mathbf{v}) = \mathbf{x} \cdot \mathbf{v}.

联合嵌入空间训练的最优化函数为 contrastive loss:

这里写图片描述
这里写图片描述

vkvk\mathbf{v} _k - 图片 xx\mathbf{x} 的 non-mathching 描述;

xkxk\mathbf{x}_k - 描述 vv\mathbf{v} 的 non-matching 图片;

最小化该 loss 函数的目标,

  • 使得图片 xx\mathbf{x} 与其对应的文本描述 vv\mathbf{v} 之间的距离小于该图片与未匹配的文本描述 vkvk\mathbf{v_k} 之间的距离,基于某个边缘参数 mmm.
  • 使得描述 vv\mathbf{v} 与其对应的图片 xx\mathbf{x} 之间的距离小与该描述与未匹配的图片 xkxk\mathbf{x_k} 之间距离.

2.2 空间概念挖掘

视觉语义嵌入模型的联合训练,能够得到判别性 CNN 模型,不仅包含了语义信息(如,最后一个 embedding 层),还包括隐藏在网络里的空间信息.

  • 属性空间表示 属性的空间信息对于理解服装商品的属性位置很重要. 采用 EAAM(Embedding Attribute Activation Maps) 来定位图片中属性的显著区域,基于训练网络,单次 forward 计算. 电商图片往往是背景简单,且正向对齐的. 对于服装类别的每一个属性,其 AAM 信息可以作为一种空间表示. 如果两个属性描述的是服装类别的相似空间部分,如 sleeveless 和 long-sleeve,或 v-neck 和 mockneck 等,那么它们的空间信息应该是相似的.
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
  • 属性语义表示 仅仅根据空间信息还不足以有效的挖掘服装概念,尤其是对于属性的判别性空间表示不够时. 对服装商品的描述训练 skip-gram model ,以得到数据集所有属性的语义表示(Word2vec Vectors).
  • 属性聚类 Attribute Clustering 理想情况下, 属于相同概念的属性应该描述服装类别的相同特点. 即,具有空间一致性和语义相似性. K-means 聚类算法对所有属性聚类,得到不同的属性组.
这里写图片描述
这里写图片描述
  • 概念子空间学习 挖掘得到的概念(concepts) 用于进一步提升(refine) 学习的联合视觉语义空间,使得商品(items)间的相似性可以通过每个独立的概念进行度量,如 color 和 neckline 可以得到不同的相似性. 当客户需要改变某方面属性来提升搜索结果,或者希望基于某一个概念来浏览商品时,概念子空间学习是有必要的. 给定由属性聚类来挖掘的到的概念,进一步对每个 concept 训练子网络,构建 concepy-specific 子空间. 子网络结构:一层全连接网络层和一个 softmax 网络层. 子空间训练后,concept 子空间特征能够学习 concept 的属性(attributes). 因此,只基于该 concept 能够进行图片间的相似性度量. 如,在 color 子空间中,blue maxi dress 与 blue mini dress 间的相似性高于其与 red maxi dress 的相似性. 然而,在 dress length 子空间中,red maxi dress 与 blue maxi dress 的相似性更高.

3. Experiment

  • 服装检测 - MultiBox
  • 视觉语义嵌入 - GoogleNet InceptionV3,2048-dim 特征
  • 空间概念挖掘 - CNN 最后一层卷积层 feature map 尺寸 8×8×20488×8×20488×8×2048,attribute map 尺寸 8×88×88×8. 向量化 activation map,每个属性的空间表示转化为 64 维特征向量. Word2Vec 训练时的 word 向量维度也设为 64. 聚类中心固定为 50.
  • 子空间特征学习
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018年01月31日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 论文阅读理解 - Automatic Spatially-aware Fashion Concept Discovery
    • 1. Fashion200K 服装数据集
      • 2. Approach
        • 2.1 视觉语义嵌入学习
        • 2.2 空间概念挖掘
      • 3. Experiment
      相关产品与服务
      联邦学习
      联邦学习(Federated Learning,FELE)是一种打破数据孤岛、释放 AI 应用潜能的分布式机器学习技术,能够让联邦学习各参与方在不披露底层数据和底层数据加密(混淆)形态的前提下,通过交换加密的机器学习中间结果实现联合建模。该产品兼顾AI应用与隐私保护,开放合作,协同性高,充分释放大数据生产力,广泛适用于金融、消费互联网等行业的业务创新场景。
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档