【CVPR2022】语言引导与基于视觉的深度度量学习的集成

数据派THU

发布于 2022-03-24 16:42:53

3490

发布于 2022-03-24 16:42:53

文章被收录于专栏：数据派THU

来源：专知本文为论文，建议阅读5分钟我们提出了一种视觉相似度学习的语言指导目标。

深度度量学习(Deep Metric Learning, DML)提出学习度量空间，将语义相似性编码为嵌入空间距离。这些空间应该可以转移到训练期间看到的类别之外。通常，DML方法使用任务网络来解决在二元类分配上定义的对比排序任务。然而，这种方法忽略了实际类之间的高级语义关系。这导致学习后的嵌入空间编码不完整的语义上下文，并歪曲类之间的语义关系，影响了学习后的度量空间的泛化性。为了解决这一问题，我们提出了一种视觉相似度学习的语言指导目标。利用专家类名和伪类名的语言嵌入，我们根据有意义的语言语义对视觉表示空间进行上下文化和重新对齐，以获得更好的语义一致性。大量的实验和消融为我们提出的方法提供了强大的动力，并显示语言指导为DML提供了显著的、模型无关的改进，在所有基准上实现了具有竞争力的和最先进的结果。代码可在

https://github.com/ExplainableML/LanguageGuidance_for_DML获得。