Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >video to video synthesis 论文解析,光流起到了什么作用?

video to video synthesis 论文解析,光流起到了什么作用?

作者头像
水球喵子
发布于 2019-02-26 05:06:03
发布于 2019-02-26 05:06:03
2K0
举报
文章被收录于专栏:计算机视觉计算机视觉

前言 这里是我第一次看完论文之后的疑虑。。。可跳过 本篇文章中使用到了光流,光流是什么? 颜色表示不同的运动方向,深浅就表示运动的快慢

不知道大家会不会跟我有一样的疑惑。 首先,论文中的flow map 是如何得到的?光流是通过什么估计的? 生成器的loss中有对《生成的光流图,真实的光流图》进行对比,除此之外还有,《将预测光流warp到当前真实的图像帧预测下一帧图像,真实的下一帧的图像》进行对比。两帧之间真实的光流图是通过flownet2.0得到的,真实的下一帧图像也是已知的,因此我们可以最小化这个loss来估计光流。

跟flow net 2.0得到flow map区别是什么? 我们预测的光流是要去逼近flownet 2.0 得到的光流的。

image.png

文中说,hallucinated image,optical flow,occlusion mask,这三种图获取都是通过(前L帧生成的图像, 前L帧的分割图+当前需要预测的第L帧分割图 )这个输入得到.

那么,输出的这三种图像,是通过什么样的方式训练得到的呢?

重点部分介绍

本文作者之前做过了pix to pix HD图像的工作,这个工作可以看作为之前工作的延伸,可以理解为他将视频分为一帧一帧图像,然后简化视频生成任务为一帧一帧图像的生成,但是考虑到视频生成时,我们需要抱证每一帧图像之间的连贯性,这里的连贯性可以从作者给的视频中看出来(车道中白色基线的连贯)。

既然考虑到了每一帧之间的连续性,那么作者为此建立一个(考虑了之前帧的信息)的生成器模型。除此之外考虑到了在视频连续帧之间是包含了大量冗余的,如果我们能够获取到两帧之间的光流信息,就可以warp当前帧来获取下一帧的信息。当然,在上下帧之间没有出现遮挡的情况,对于光流的预测是准确的。后面会提到如何解决这个问题。

建模公式,w是预测t-1到t之间得到的光流,h是当前分割帧初步得到的预测图像,m简单理解是加权,加权的原因是光流图对于靠近镜头的移动物体,用小的这帧的图像根据光流重建成较近的大的下一帧的图像会产生模糊,所以我们可以逐渐融合h和warp后的图。

重点是损失函数,让我们看看他是如何设计损失函数的

ummm...我们可以拆分每一部分看,F是生成的图像帧。

首先,判别器loss, L_{I}是我们从视频帧中随机取样图片,使得{真实图像帧,分割图像帧}对=1,和{生成图像帧,分割图像帧}对=0,来(训练)最大化图像判别器,然后,同样L_{V}是我们从视频帧中随机取样K个连续帧图像,使用一个操作器获取连续K帧之间的真实的光流图,使得{真实K连续图像帧,K帧之间的真实的光流图}对=1,和{生成K连续图像帧,K帧之间的真实的光流图}对=0,来(训练)最大化连续视频帧判别器。 那么对于生成器loss呢,最小化在分割图条件下的《生成的图像帧,真实的图像帧》之间的距离和 在光流条件下的《生成的连续K个图像帧,真实的连续K个图像帧》之间的距离,还有最小化生成的flow的loss。L_{W}包含最小化《真实光流,预测光流》之间的距离和《将预测光流warp当前真实的图像上从而预测下一帧图像,真实的下一帧的图像》之间的距离相加。

在上下帧之间出现遮挡的情况,对于光流的预测是不准确的。如何解决这个问题? 首先,根据分割的ground truth 将建筑、路面之类作为背景,将人,车之类作为前景,对生成器做一个较强的先验。因为人或者车在图像中所占面积小,并且会有较大的移动,所以光流的预测是不准确的,前景生成器必须要生成这些。对于背景区域,光流是很容易预测的,因此背景区域可以通过之前的warp操作获得,也就是我们的W网络,所以,这里的背景生成器仅仅需要去预测遮挡区域即可。

从这个式子就可以看到,前景的网络输入是分割图像帧,背景网络输入是跟其他W,M是一样的

最终的生成器的架构

这个先验的意义是,以一些小的视觉伪影为代价来获取的更好的视觉效果。

大概就是添加了模糊,人眼会有快速运动的感觉

看代码喽

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019.01.16 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【技术解析】基于光流的视频目标检测系列文章解读
技术解析是由美团点评无人配送部技术团队主笔,每期发布一篇无人配送领域相关技术解析或应用实例,本期为您带来的是基于光流的视频目标检测系列文章解读。
美团无人配送
2019/04/26
2.5K1
【技术解析】基于光流的视频目标检测系列文章解读
论文完整复现流程之异常检测的未来帧预测
本次研究论文题目为:Future Frame Prediction for Anomaly Detection -- A New Baseline。
公众号guangcity
2019/09/20
1.9K0
论文完整复现流程之异常检测的未来帧预测
AAAI 2020论文解读:商汤科技发布新视频语义分割和光流联合学习算法
来源 | Every Frame Counts: Joint Learning of Video Segmentation and Optical Flow
AI科技大本营
2020/02/19
8890
AAAI 2020论文解读:商汤科技发布新视频语义分割和光流联合学习算法
深度揭秘京东全景主图背后的技术
作者 黄志标:中国科学院大学硕士,京东AI与大数据部算法工程师。 擅长图像检索、深度学习领域。曾参与京东的上亿重图检测项目,目前主要负责京东全景主图、视频审核项目。 安山:山东大学机器人研究中心硕士,京东AI与大数据部资深算法工程师。 研究兴趣为大规模图像检索、计算机视觉。负责京东图像搜索引擎、知识产权保护、深度学习算法移动化。在计算机视觉领域获得2项发明专利授权,另有十余项专利申请。 据京东财报显示,京东集团第二季度净利润达9.765亿,年度活跃用户达2.583亿,订单完成量为5.912亿。扎实的用户基
京东技术
2018/06/20
9190
两张照片就能转视频!Google提出FLIM帧插值模型
---- 新智元报道   编辑:LRS 【新智元导读】传统的帧插值通常都是在两张极其相似之间生成图像。最近Google提出的FLIM模型能够对动作变化幅度较大的两张照片进行帧插值来生成视频:首次引入Gram损失,不仅锐度提升,细节也拉满! 帧插值(Frame Interpolation)是计算机视觉领域的一项关键任务,模型需要根据给定的两个帧,来预测、合成平滑的中间图像,在现实世界中也有极大的应用价值。 常见的帧插值应用场景就是对提升一些帧率不够的视频,一些设备都配有专门的硬件对输入视频的帧率进行
新智元
2022/03/14
1.3K0
总结 | 计算机视觉领域最常见几中损失函数
损失函数在模型的性能中起着关键作用。选择正确的损失函数可以帮助你的模型学习如何将注意力集中在数据中的正确特征集合上,从而获得最优和更快的收敛。
OpenCV学堂
2020/03/18
2.4K0
【知识星球】图像生成玩腻了?视频生成技术何不来了解一下
视频生成不仅仅是要生成多张逼真的图像,而且要保证运动的连贯性,Video-GAN可以认为是图像生成鼻祖DCGAN的视频版。
用户1508658
2020/03/25
1.7K0
【知识星球】图像生成玩腻了?视频生成技术何不来了解一下
光流估计综述:从传统方法到深度学习
近年来,深度学习技术,作为一把利剑,广泛地应用于计算机视觉等人工智能领域。如今时常见诸报端的“人工智能时代”,从技术角度看,是“深度学习时代”。
小白学视觉
2020/09/22
3.8K0
光流估计综述:从传统方法到深度学习
通过推测语义布局,层级形式文本到图像的合成《Inferring Semantic Layout for Hierarchical Text-to-image Synthesis》一、从文本来推断语义布
perceptual loss 图1. 给定一个文本描述,构成一个语义结构,(box+mask),由前面的两个大条件,合成图片。与Reed的思路很像,但解决方案不同。 一、从文本来推断语义布局 1.bounding box 的生成     bounding box (图1中的box)决定了生成图片的全局布局,因为,box定义了图片中有哪种目标以及将这些目标放到哪些位置。我们将第 t 个标注的 bounding box 表示为 图二. 其中, b_{t} 里面包含四个变量,分别表示boundi
水球喵子
2018/04/10
1.4K0
通过推测语义布局,层级形式文本到图像的合成《Inferring Semantic Layout for Hierarchical Text-to-image Synthesis》一、从文本来推断语义布
ICCV 2019 | Adobe 无需大量数据训练,内部学习机制实现更好的视频修补
今天跟大家分享一篇 ICCV 2019 的文章An Internal Learning Approach to Video Inpainting,该文在CVPR 2018 非常有意思的论文 Deep Image Prior(DIP)的启发下,使用视频内部学习(Internal Learning)的方式,同时建模表观与光流,解决视频修补中不连续的情况。
CV君
2019/12/27
1.1K0
视频生成的前沿论文,看我们推荐的7篇就够了
图像和视频等视觉数据的生成是机器学习和计算机视觉领域的重要研究问题。近几年随着生成对抗网络的提出和发展,人们已经可以通过深度生成模型合成真实、多样化的清晰图像。作为一种结构更加复杂,应用也更广的数据类型,视频的生成即将成为人工智能领域的下一个热点问题。
马上科普尚尚
2020/05/11
1.6K0
视频生成的前沿论文,看我们推荐的7篇就够了
回归本真,焕发新生——基于光流生成对抗网络的视频超分
腾讯多媒体实验室专栏 随着5G网络的逐渐普及,更快的传输速度、更低廉的价格使得高清视频得以在终端进行展示。在高清视频的应用上,超分技术扮演着重要的角色。超分技术分为图像超分辨和视频超分辨,其中视频超分辨技术不仅需要生成细节丰富的一帧帧图像,还要保持图像之间的连贯性,有更大的技术挑战。腾讯多媒体实验室的视频超分能力可以明显地细化边界、增加细节,同时保持视频序列帧间的一致性。 一、问题分析 在视频超分辨率任务中,基于深度学习的方法中主要使用标准损失函数,如均方差损失(Mean Square Error,M
腾讯多媒体实验室
2021/05/14
1.2K0
万字综述之生成对抗网络(GAN)
前阵子学习 GAN 的过程发现现在的 GAN 综述文章大都是 2016 年 Ian Goodfellow 或者自动化所王飞跃老师那篇。可是在深度学习,GAN 领域,其进展都是以月来计算的,感觉那两篇综述有些老了。
机器之心
2019/04/29
3.4K0
万字综述之生成对抗网络(GAN)
视觉光流计算技术及其应用
光流计算作为计算机视觉的一个长期基本任务,其重要性显而易见。由于运动视觉处理的特殊性,光流作为后面高级视觉处理的输入,对其准确度、实时性都有着极高的要求,光流计算的性能会直接影响其后的高级视觉处理。
一点人工一点智能
2023/09/01
1.2K0
视觉光流计算技术及其应用
光流flownet2视频介绍及代码 及两篇中文文章
http://blog.csdn.net/hysteric314/article/details/50529804
CreateAMind
2018/07/24
3.9K0
光流flownet2视频介绍及代码 及两篇中文文章
视频语义分割介绍
随着深度学习的发展,图像语义分割任务取得了很大的突破,然而视频语义分割仍然是一个十分具有挑战性的任务,本文将会介绍视频语义分割最近几年顶会上的一些工作。
SIGAI学习与实践平台
2018/12/10
2.9K0
视频语义分割介绍
自监督注意力在密集光流估计中的应用
在深入理解自监督注意力(self-supervised attention)的含义之前,让我们先来了解一下光流估计(optical flow estimation)的直觉,以及它为何被人类和计算机视觉系统共同采用作为一种目标跟踪方法。
McGL
2020/09/02
1.7K0
技术解码 | 腾讯明眸技术全面解析——深度学习AI画质增强
不久前,我们为大家介绍了腾讯明眸这一利用腾讯云领先的编解码和媒体处理技术与AI技术融合打造而成的音视频技术品牌(攻城狮手记 | 既高清又低码?腾讯明眸帮你两者兼得)。接下来我们将通过三期文章,从AI智能处理、编解码优化和容器格式优化三个方面,进一步解读分享腾讯云音视频-明眸研究团队在多媒体领域前沿技术方面积累的经验和成果。 本期我们将先从深度学习AI画质增强开始,为大家分享腾讯明眸在AI方向上的探索及思考。 腾讯明眸核心能力展示 目前我们在画质增强的工作上通过结合深度学习网络,针对性的提出了一些
腾讯云音视频
2021/10/25
3.3K0
哈工大提出基于光流估计与光照不一致监督的人脸正向化模型
今天解读的是一篇已被ECCV 2020接收的论文,在这篇论文中,来自哈工大的作者们针对之前方法忽略对侧脸-正脸图像对之间光照情况不一致的考虑,引入了一个光照保留损失,实现了图像中光照信息和人脸身份信息的特征解藕,同时使用光流估计在特征层面得到了侧脸-正脸之间的特征对应关系,作为一个强有力的正向化监督信号,进而生成了更加逼真的正面人脸,同时也保留了更多的细节信息,实验结果表明,本文方法达到了SOTA效果。
AI科技评论
2020/09/04
1.1K0
【干货】计算机视觉视频理解领域的经典方法和最新成果
---- 新智元专栏 作者:张皓(南京大学) 【新智元导读】相比图像,视频多了一维时序信息。如何利用好视频中的时序信息是研究这类方法的关键。本文简要回顾视频理解方面的近年进展,并对未来可能的研究方向作一展望。 相比图像,视频多了一维时序信息。如何利用好视频中的时序信息是研究这类方法的关键。视频理解可以用于多个领域,例如在智能安防领域中可以取代人工来对监控视频进行分析。本文简要回顾视频理解方面的近年进展,并对未来可能的研究方向作一展望。 常用数据集 视频分类主要有两种数据集,剪辑过(trimmed)
新智元
2018/05/30
3.8K0
推荐阅读
相关推荐
【技术解析】基于光流的视频目标检测系列文章解读
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档