前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >CVPR2022论文速递!共6篇含图像翻译(FaceBook新作)/元学习/轨迹预测等(2022.3.10)

CVPR2022论文速递!共6篇含图像翻译(FaceBook新作)/元学习/轨迹预测等(2022.3.10)

作者头像
AI算法与图像处理
发布2022-04-06 14:12:16
7390
发布2022-04-06 14:12:16
举报
文章被收录于专栏:AI算法与图像处理

整理:AI算法与图像处理

本文整理了3月10日arXiv更新的 6 篇CVPR2022的论文,简单介绍了FaceBook最新的工作《FlexIT: Towards Flexible Semantic Image Translation

CVPR2022 论文代码整理:

https://github.com/DWCTOD/CVPR2022-Papers-with-Code-Demo (求个star)

FlexIT: Towards Flexible Semantic Image Translation

FlexIT:迈向灵活的语义图像翻译

作者:Facebook AI Research

  • 论文/Paper:https://arxiv.org/abs/2203.04705
  • 代码/Code:

摘要:

深度生成模型,如 GAN,极大地提高了图像合成的技术水平,并且能够在人脸等结构化域中生成接近照片般逼真的图像。基于这一成功,最近的图像编辑工作通过将图像投影到 GAN 潜在空间并操纵潜在向量来进行。然而,这些方法的局限性在于只能转换来自窄域的图像,并且只能进行有限数量的编辑操作。我们提出了 FlexIT,这是一种新颖的方法,可以采用任何输入图像和用户定义的文本指令进行编辑。我们的方法实现了灵活自然的编辑,突破了语义图像翻译的极限。首先,FlexIT 将输入图像和文本组合成 CLIP 多模态嵌入空间中的单个目标点。通过自动编码器的潜在空间,我们将输入图像迭代地变换到目标点,通过各种新颖的正则化项确保连贯性和质量。我们提出了一种用于语义图像翻译的评估协议,并在 ImageNet 上彻底评估了我们的方法

整体框架:

FlexIT优化框架:绿色部分涉及多模态潜在空间的组件;黄色部分涉及图像潜在空间的;粉红色部分涉及的LPIPS距离。给定一个变换查询 (I0, S, T),我们首先在多模态嵌入空间中计算一个目标点 P,然后我们在图像潜在空间中对 I0 进行编码以获得 z0。然后,对于固定的step,我们更新潜在变量 z(用 z0 初始化)以更接近目标点 P。我们添加两个正则化项:输入图像和输出图像之间的 LPIPS 感知距离,以及 z 和 z0 之间的潜在距离。所有网络都被冻结,只有 z 被更新。

图像翻译方法的概述如图 2 所示。它依赖于三个预训练的组件。首先,我们在潜在空间中编辑输入图像,要求可以将各种图像编码和解码回具有最小失真的 RGB 图像。为此,我们选择了 VQGAN 自动编码器 。其次,我们将文本查询和输入图像嵌入到多模态嵌入空间中,为修改后的图像定义优化目标。我们使用 CLIP [41] 多模态嵌入空间。最后,为了确保修改后的图像与输入图像保持相似,我们使用 VGG [44] backbone计算的 LPIPS 感知距离 [56] 控制其与输入图像的距离。

Optimization scheme

FlexIT 方法的核心思想是在潜在空间中编辑输入图像,由多模态嵌入空间中定义的高级语义目标引导。令 E 为图像编码器,D 为图像解码器,(Ct, Ci) 分别为文本和图像的多模态编码器。给定输入图像 I0 和文本转换 S → T,我们首先通过计算初始潜在图像表示为 z0 = E(I0) 和目标多模态点 P 来初始化 FlexIT

效果:

更多细节请参考论文原文,期待大佬开源项目代码

What Matters For Meta-Learning Vision Regression Tasks?

元学习视觉回归任务的重要性是什么?

  • 论文/Paper:https://arxiv.org/abs/2203.04905
  • 代码/Code:

How many Observations are Enough? Knowledge Distillation for Trajectory Forecasting

多少Observations 足够?轨迹预测的知识蒸馏

  • 论文/Paper:https://arxiv.org/abs/2203.04781
  • 代码/Code:

SkinningNet: Two-Stream Graph Convolutional Neural Network for Skinning Prediction of Synthetic Characters

SkinningNet:用于合成字符皮肤预测的双流图卷积神经网络

  • 论文/Paper:https://arxiv.org/abs/2203.04746
  • 代码/Code:https://imatge-upc.github.io/skinningnet/

ChiTransformer:Towards Reliable Stereo from Cues

ChiTransformer:从线索走向可靠的立体声

  • 论文/Paper:https://arxiv.org/abs/2203.04554
  • 代码/Code:

Dynamic Dual-Output Diffusion Models

动态双输出扩散模型

  • 论文/Paper:https://arxiv.org/abs/2203.04304
  • 代码/Code:
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-03-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI算法与图像处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档