谷歌通过概念向量来影响图像搜索

谷歌最近公布了“与你相像的医疗图像”(Similar Medical Images Like Yours,SMILY)工具的研究工作进展,这个工具使用概念向量来增强医疗图像的搜索。这项研究工作使用embedding技术进行基于图像的搜索,用户可以通过概念交互细化来影响搜索。

谷歌先后发表了两篇论文。第一篇论文“组织病理学的相似图像搜索:SMILY”(Similar Image Search for Histopathology: SMILY)关注的是深层神经网络架构,主要用于创建搜索相似图像所需的embedding。第二篇论文“在医疗决策过程中处理不完美算法的工具”(Human-Centered Tools for Coping with Imperfect Algorithms During Medical Decision-Making)集中在人类交互方面,以便提升在第一篇论文中提及的工具的使用。用户可以调整图像中的概念数量,而这反过来通过增强embedding中的位置来影响相似图像的选择。

用于创建embedding的深度神经网络是一种叫作深度排名网络的架构。该网络由三个并行的神经网络组成,分别接收三个独立的输入。第一个神经网络获取被搜索的图像,第二个神经网络获取与第一个同类的图像,第三个神经网络获取不同类别的图像。这三个网络都会创建embedding,并经过训练,用以缩短同类图像与不同类图像之间的距离。这个神经网络架构可以为300×300像素的图像生成128维的embedding。谷歌表示:

我们使用大约5亿张18000不同类别的“自然图像”(例如狗、猫、树、人造物体等)来训练我们的网络,因此它学会了通过计算和比较输入图像的embedding来区分相似和不同的图像。

在第一篇论文“组织病理学的相似图像搜索:SMILY”中,谷歌展示了用户选择图像片段,为图像片段创建embedding,然后使用K近似算法从embedding空间检索相似的图像。但他们发现,用户在搜索相似图像时无法传达搜索意图,限制了工具的参与度。因此,第二篇论文继续进行深入研究,以改进交互搜索。

在第二篇论文“在医疗决策过程中处理不完美算法的工具”中,谷歌引入了一个称为“按概念进行细化”的特性,以此来改进这个工具。这个特性使用embedding维度中的方向来表示概念。选取一组图像样本,并对具有概念或相反概念的图像进行标记,确定方向,然后使用线性分类器在embedding空间中识别平面。然后进一步计算出平面的正交向量,也就是概念的方向。然后,用户通过影响概念的流行程度对搜索进行补偿,这样会影响所选图像生成的embedding,进而影响相似图像的K近似选择。

原文链接

Google Research Into Concept Vectors for Image Search

  • 发表于:
  • 本文为 InfoQ 中文站特供稿件
  • 首发地址https://www.infoq.cn/article/46FHhGuJKYpT4NWdI85A

扫码关注云+社区

领取腾讯云代金券