首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

2024最新版-Web前端架构师(35周完结无密)

下载看水印

跨模态食材检索旨在揭示食品图像与食材之间复杂的对应关系。给定NNN个训练样本对I={mi,gi}i=1NI = \left\{m_i, g_i\right\}^N_{i = 1}I={mi,gi}i=1N,其中mim_imi表示第iii个食物图像,gig_igi表示含有列表gi=[ing1,ing2,...,ingO]g_i = [{ing}_1, {ing}_2, ..., {ing}_O]gi=[ing1,ing2,...,ingO]第iii个食材的组合,其中OOO为食材数量。与使用三级食材标签标注的食材检测不同,这里使用最精细的食材标注(429种)进行跨模态食材检索。

如图所示,使用两个独立的特征提取器提取图像特征和食材特征。然后,应用对比约束以端到端的方式来缩小匹配的图像和食材之间的嵌入距离。考虑到食材检测能够学习不同图像区域中食材的语义嵌入,我们进一步研究了两阶段的检索模型的有效性,该模型首先使用食材检测算法提取区域特征,然后使用区域特征和食材来训练一个联合嵌入模型。

3.2.1 方法1-端到端训练

在端到端设置中,我们首先将食品图像和食材组合投影到公共的嵌入空间中,然后使用对比损失来约束跨模态特征对齐。对于图像编码器,受视觉-语言Transformer在各种下游任务中取得成功的启发,我们采用预训练的[49]-[51]CLIP ViT B/16作为图像特征提取器对图像特征进行编码,然后利用线性全连接层将原始图像特征投影到公共的嵌入空间中:

fM=∣∣Fc(EM(M))∣∣2f_M = || Fc(E_M(M))||_2fM=∣∣Fc(EM(M))∣∣2

其中,fMf_MfM表示图像嵌入,EME_MEM表示图像编码器,∣∣⋅∣∣2||\cdot||_2∣∣⋅∣∣2表示l2l_2l2归一化。对于食材编码器,与直接编码文本特征的方式不同,我们利用分层Transformer来捕获食材语义和食材间的关系。具体来说,给定一个食材组gi=[ing1,ing2,...,ingO]g_i = [{ing}_1, {ing}_2, ..., {ing}_O]gi=[ing1,ing2,...,ingO],首先将每个食材视为一个单独的文本,并将其投影到特征向量fingi∈Rt×df_{ing_i} \in R^{t \times d}fingi∈Rt×d,其中ttt表示第iii种食材中的token,ddd表示特征的维度。为了捕获不同食材之间的组合关系,我们首先使用平均池化来获得每种食材的聚合表示,然后将多个食材的特征序列输入到额外的Transformer中,来建模食材之间的关系。此外,我们进一步利用平均池化来获得食材组的原始特征。最后,我们使用一个全连接层,然后进行l2l_2l2归一化,从而得到食材组的嵌入:

fG=∣∣Fc(T2(T1(ing1),...,T1(ingO)))∣∣2f_G = || F_c(T_2(T_1(ing_1), ..., T_1(ing_O)))||_2fG=∣∣Fc(T2(T1(ing1),...,T1(ingO)))∣∣2

其中,T1T_1T1和T2T_2T2是分层Transformer编码器。根据已有的跨模态图像-文本检索研究[6],[52],[53],我们利用对比损失来最大化正样本对之间的相似性,最小化负样本之间的相似性

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OHD7rYQoNpd_uU7bt03v_Y6A0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券