前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >CVPR2020之姿势变换GAN:图像里谁都会劈叉?

CVPR2020之姿势变换GAN:图像里谁都会劈叉?

作者头像
公众号机器学习与AI生成创作
发布2020-04-28 11:33:33
7960
发布2020-04-28 11:33:33
举报

姿势转换的图像处理,今天看到一篇CVPR2020的关于这方面的一个思路,下面做极简分享,更多细节参读原文:

Deep Image Spatial Transformation for Person Image Generation

https://arxiv.xilesou.top/pdf/2003.00696.pdf

https://github.com/RenYurui/Global-Flow-Local-Attention

姿势转换,指的是将源图像的姿势转变到目标姿势。此任务需要对源图像进行空间上的操作。而卷积神经网络缺乏在空间上转换输入图像的能力。本文提出了一个可微的全局流-局部注意(global-flowlocal-attentio)的框架以在特征层面对输入进行重新转换整合。具体来说,首先计算源图像和目标图像之间的全局相关性、预测流场flow field。然后,从特征图提取the flowed local patch pair去计算局部注意力。最后,将获得的局部注意系数使用内容感知采样的方法转换源图像特征。主客观的验证实验进行了方法验证。此外,图像动画化和视图合成等实验结果也表明模型适用于其它需要空间变换的任务。

网络结构如下所示,一个目标姿势图像生成器G(蓝色部分),一个流估计器F(红色部分)。

流估计器F

接收(原姿势图像、原姿势结构、目标姿势结构图像)为输入,输出流场w(包含坐标偏移信息)和遮挡掩膜m(指示目标位置信息是否在原图中存在):

涉及的损失有采样正确性损失(sampling correctness loss),它使用VGG19层的特征来计算目标图像和源图采样特征之间的余弦距离

采样正确性损失约束流场对语义相似的区域进行采样。而图像邻域的转换变形是高度相关的,如果能够提取这种关系将是有益的。因此,添加正则项用于惩罚不是仿射变换的局部区域:

目标(姿势)图像生成器G(见上网络结构图)

它接收的输入和输出如下定义:

根据流w和f_t、f_s,提取一对特征块进行注意力计算:

具体计算方式:

值得注意的是,由于源姿势图像可能出现一些遮挡和移动,并非可以都找到目标图像的所有内容。为了使目标图像生成器G补充生成新内容,遮挡掩模m(在0和1之间)具有特征选择的作用。下面给出其处理方式以及剩余的损失函数:

具体整个网络结构图:

数据集和评估标准:

实现细节:

部分实验结果:

其它任务:

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-03-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与AI生成创作 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档