[Paper - Automatic Spatially-aware Fashion Concept Discovery - ICCV2017]
主要是应用属性(Attributes)在图片中的空间位置信息,表现为 activation map 形式; 结合 Word2Vec 生成文本描述的特征向量. 可用于图像检索(基于attributes-feedback),数据集中特定属性的图像浏览.
对比一般图片,服装图片的特点:
服装属性特点分析.
基于 weakly labeld image-text 电商数据 —— Fashion200K.
方法优势:
Fashion200K:
方法主要包括的关键部分:
方法利用了属性(attribute) 的空间信息. 不同类型服装的相同属性(如,短裙和短裤的 short 属性)具有不同的空间特点.
针对每一类服装分别训练模型.
通过将商品图片和对应的文本描述投影到一个联合嵌入空间,根据 image-text pairs 来训练视觉语义嵌入模型.
采用 cosine 相似度来度量图片和其描述的距离:d(x,v)=x⋅vd(x,v)=x⋅vd(\mathbf{x}, \mathbf{v}) = \mathbf{x} \cdot \mathbf{v}.
联合嵌入空间训练的最优化函数为 contrastive loss:
vkvk\mathbf{v} _k - 图片 xx\mathbf{x} 的 non-mathching 描述;
xkxk\mathbf{x}_k - 描述 vv\mathbf{v} 的 non-matching 图片;
最小化该 loss 函数的目标,
视觉语义嵌入模型的联合训练,能够得到判别性 CNN 模型,不仅包含了语义信息(如,最后一个 embedding 层),还包括隐藏在网络里的空间信息.