前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >高清还原破损视频,参数和训练时间减少三分之二,台大这项研究登上了BMVC 2019

高清还原破损视频,参数和训练时间减少三分之二,台大这项研究登上了BMVC 2019

作者头像
量子位
发布2019-07-24 15:22:01
4400
发布2019-07-24 15:22:01
举报
文章被收录于专栏:量子位量子位
郭一璞 发自 凹非寺 量子位 报道 | 公众号 QbitAI

小刺猬的视频,被泼了墨。

用AI“清洗”一下,就干净了。

支离破碎的滑板视频。

这下变了回来。

一位黑哥哥在撸巨型老鼠,但是画面破损,看不清。

AI还原一下,现在好了。

每个被破损的视频,经过AI还原之后,仿佛从来没有被破坏过一样,完整清晰。

这是中国台湾大学发表在BMVC 2019的一项研究,一作是台大通讯与多媒体实验室学生Ya-Liang Chang。

核心创造:LGTSM

之所以能将视频画面修补的那么完美,要归功于研究者们提出的可学习的门控时移模块,Learnable Gated Temporal Shift Module,LGTSM。

LGTSM改进自2018年MIT-IBM沃森实验室提出的TSM模块,增加了门控卷积滤波器,设计了可学习的时间移位内核(temporal shifting kernels)。

由于移位操作仅使用1/4通道大小的附加缓冲器,因此与传统的2D卷积相比,它在计算时间和运行时内存方面成本很低。

这样,这个模块就能将模型的参数和训练时间都减少到原来的33%,达到几乎相同的表现效果。

在这个模块之外,整体的模型则是由U-net类生成器和TSMGAN鉴别器构成,LGTSM模块所处的位置就是生成器内,除此之外生成器还包括11个卷积层。

在不同数据集上跑的结果

用到的数据集是基于YouTube视频制作的FaceForensics和FVI数据集,总共视频数量超过16000个。

在两个数据集上,LGTSM和目前成绩最好的3DGated非常接近,但参数的数量却只有前者的三分之一。

传送门

论文: Learnable Gated Temporal Shift Module for Deep Video Inpainting Ya-Liang Chang, Zhe Yu Liu, Kuan-Ying Lee, Winston Hsu https://arxiv.org/abs/1907.01131

GitHub: https://github.com/amjltc295/Free-Form-Video-Inpainting

视频效果全集: https://www.youtube.com/playlist?list=PLPoVtv-xp_dL5uckIzz1PKwNjg1yI0I94

作者系网易新闻·网易号“各有态度”签约作者

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-07-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 核心创造:LGTSM
  • 在不同数据集上跑的结果
  • 传送门
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档