许多细粒度视觉类别的标签获取较为困难,zero-shot 图像标注(image tagging) 旨在采用训练样本中不存在的新标签来标注图像.
现在通常做法是,采用神经语言模型(neural language model) 训练得到语义空间,将图像和标签投影到该语义空间,然后计算跨媒体的相似性,以进行图像标注. 但对于出现频次相对较少的标签,得到的与图像即其它标签的相似性可能不可靠.
本文提出层次语义嵌入(Hierarchical Semantic Embedding, HierSE),采用 WordNet 层次来提高标签嵌入和图像嵌入效果. 另外,采用了两种好的技巧:采用 Flickr 标签来训练自然语言模型,而不是网络文档(web document);采用部分匹配(partial match)向量化的 WordNet 节点,而不是全匹配的方式(full match).
zero-shot learning 不是寻找图像和目标标签的直接映射关系,其关键在于在图像和标签之间引入中间层,使得新标签也可在这层进行表示,即使没有该标签的图像样本.
给定未标注图片,zero-shot 图像标注的目标是,利用没有可用训练样本的标签对图片进行自动标注. 主要是通过将图像和新标签嵌入到一个共同的语义空间,以便于通过计算语义空间中对应向量的距离来估计其相关性.
[1] - Zero-shot learning by convex combination of semantic embedding. In ICLR, 2014