通用图像标注问题研究一般可分为两类:
服装图像标注问题是对服装局部属性的详细描述,其需要服装图像的 top-ranked tags 不仅与服装图像内容相关,也要能反映服装的最重要的特征.
服装图像与通用图像标注的 tags 的一个例子如 Fig.1. 在服装图像中,通用 tags 如 “coat” 和 “Tshirt” 与图像内容相关,但还不足以描述该服装的代表性特征,还需要其它细节性描述来描述服装的显著特征,如“hollow shoulder(空心肩膀)”、“tassels(流苏)”,等.
服装图像标注的两个关键问题:
这里提出对应的解决方案——part-based 服装图像标注方法:
方法主要包括三部分:
[1] - 根据视觉相似性来检索相似服装图像(蓝色点方框). 采用 part-based 特征提取和特征对齐来缓解背景噪声和人体姿态形变的影响,以获取更准确的候选 tags;
[2] - 分析服装部分和其 tags 的相关性来提取各服装部分的突出性 tags(红色点方框);
[3] - 结合 whole-image-based 相关性分析和 part-based 相关性分析来改善 tags(绿色点方框). 这些 tags 不仅与服装图像相关,还反应了服装的显著特征.
首先,采用 pose detector 对图像进行处理,以得到一组 parts,如 shoulder,elbow,wrist,torso等.各个 part 均归一化为 64*64 像素固定大小.
然后,对各 part,提取 24-D颜色直方图(color histogram)、59-D局部二值模式(local binary pattern, LBP)、1984-D HOG(histogtam of oriented gradients)、75-D边缘分布(edge distribution) 和 170-D 小波特征(wavelet features) 作为视觉特征表示.
最后,服装图像的 18 个 parts 的特征组合为一个 41616 维特征描述子,并采用 PCA 降维到 905 维,以提高检索效率. 如Fig.3.
采用 L2-distance 来作为 KNN 搜索方法的度量,检索相似图像. 构建 KD-树以实时索引图像样本. 在搜索阶段,设置 K=100. 为了进一步提高检索效率,可以采用 Hashing 方法,将高维视觉特征映射为 hash 编码.
首先,采用 pose detector 得到服装图像中的各关键 parts,如shoulders,elbows;
然后,针对各part,获取包含该 part 的图像块和对应的 tags. 将所有包含该 part 的图像块根据视觉特征进行聚类;
最后,结合类间和类内相关性分析,来选取各类的代表性 tags 列表. 如 Fig.4.