论文阅读理解 - Automatic Spatially-aware Fashion Concept Discovery

AIHGF

发布于 2019-02-18 09:44:48

8730

发布于 2019-02-18 09:44:48

文章被收录于专栏：AIUAI

主要是应用属性(Attributes)在图片中的空间位置信息，表现为 activation map 形式；结合 Word2Vec 生成文本描述的特征向量. 可用于图像检索(基于attributes-feedback)，数据集中特定属性的图像浏览.

对比一般图片，服装图片的特点：

服装易受形变影响；
风格(style)和纹理(texture) 的变化显著；
最重要的是，low-level 的视觉和用户 high-level 需求之间长期存在较大的语义鸿沟.
对于用户来说，不仅需要颜色(color) 和纹理(texture)的特征，还需要 high-level 特征，如领型(neckline)、袖长(sleeve length)、裙长(dress length) 等.
领型属性往往对应于图片的靠上部分；袖长属性一般在图片的左右两边.

服装属性特点分析.

基于 weakly labeld image-text 电商数据 —— Fashion200K.

首先，采用微调 GoogleNet，对服装图片和其对应的属性描述联合建模到一个视觉语义嵌入空间(visual-semantic embedding space).
然后，对于每一个属性(word)，通过结合其语义词向量表示(semantic word vector respentation) 和其由微调网络卷积图(conv map)得到的空间表示(spatial respentation)，来生成各属性的 spatial-aware 表示.
对得到的 spatial-aware 表示，聚类到各个不同的组，以形成属性概念(spatially-aware concepts)，如领型概念可能包括的属性有：V-领，圆领等；
最后，将视觉嵌入语义空间分解为多个不同概念的子空间(concept-specific subspaces)，有助于结构化浏览、基于属性反馈(attribute-feedback)的检索等.

方法优势：

Fashion200K：

方法主要包括的关键部分：

方法利用了属性(attribute) 的空间信息. 不同类型服装的相同属性(如，短裙和短裤的 short 属性)具有不同的空间特点.

针对每一类服装分别训练模型.

通过将商品图片和对应的文本描述投影到一个联合嵌入空间，根据 image-text pairs 来训练视觉语义嵌入模型.

采用 cosine 相似度来度量图片和其描述的距离：d(x,v)=x⋅vd(x,v)=x⋅vd(\mathbf{x}, \mathbf{v}) = \mathbf{x} \cdot \mathbf{v}.

联合嵌入空间训练的最优化函数为 contrastive loss:

vkvk\mathbf{v} _k - 图片 xx\mathbf{x} 的 non-mathching 描述；

xkxk\mathbf{x}_k - 描述 vv\mathbf{v} 的 non-matching 图片；

最小化该 loss 函数的目标，

使得图片 xx\mathbf{x} 与其对应的文本描述 vv\mathbf{v} 之间的距离小于该图片与未匹配的文本描述 vkvk\mathbf{v_k} 之间的距离，基于某个边缘参数 mmm.
使得描述 vv\mathbf{v} 与其对应的图片 xx\mathbf{x} 之间的距离小与该描述与未匹配的图片 xkxk\mathbf{x_k} 之间距离.

视觉语义嵌入模型的联合训练，能够得到判别性 CNN 模型，不仅包含了语义信息(如，最后一个 embedding 层)，还包括隐藏在网络里的空间信息.

属性空间表示属性的空间信息对于理解服装商品的属性位置很重要. 采用 EAAM(Embedding Attribute Activation Maps) 来定位图片中属性的显著区域，基于训练网络，单次 forward 计算. 电商图片往往是背景简单，且正向对齐的. 对于服装类别的每一个属性，其 AAM 信息可以作为一种空间表示. 如果两个属性描述的是服装类别的相似空间部分，如 sleeveless 和 long-sleeve，或 v-neck 和 mockneck 等，那么它们的空间信息应该是相似的.

属性语义表示仅仅根据空间信息还不足以有效的挖掘服装概念，尤其是对于属性的判别性空间表示不够时. 对服装商品的描述训练 skip-gram model ，以得到数据集所有属性的语义表示(Word2vec Vectors).
属性聚类 Attribute Clustering 理想情况下，属于相同概念的属性应该描述服装类别的相同特点. 即，具有空间一致性和语义相似性. K-means 聚类算法对所有属性聚类，得到不同的属性组.

概念子空间学习挖掘得到的概念(concepts) 用于进一步提升(refine) 学习的联合视觉语义空间，使得商品(items)间的相似性可以通过每个独立的概念进行度量，如 color 和 neckline 可以得到不同的相似性. 当客户需要改变某方面属性来提升搜索结果，或者希望基于某一个概念来浏览商品时，概念子空间学习是有必要的. 给定由属性聚类来挖掘的到的概念，进一步对每个 concept 训练子网络，构建 concepy-specific 子空间. 子网络结构：一层全连接网络层和一个 softmax 网络层. 子空间训练后，concept 子空间特征能够学习 concept 的属性(attributes). 因此，只基于该 concept 能够进行图片间的相似性度量. 如，在 color 子空间中，blue maxi dress 与 blue mini dress 间的相似性高于其与 red maxi dress 的相似性. 然而，在 dress length 子空间中，red maxi dress 与 blue maxi dress 的相似性更高.

服装检测 - MultiBox
视觉语义嵌入 - GoogleNet InceptionV3，2048-dim 特征
空间概念挖掘 - CNN 最后一层卷积层 feature map 尺寸 8×8×20488×8×20488×8×2048，attribute map 尺寸 8×88×88×8. 向量化 activation map，每个属性的空间表示转化为 64 维特征向量. Word2Vec 训练时的 word 向量维度也设为 64. 聚类中心固定为 50.
子空间特征学习