专栏首页新智元谷歌AI动画接龙:只用头尾两帧图像,片刻生成完整视频!

谷歌AI动画接龙:只用头尾两帧图像,片刻生成完整视频!


新智元报道

想象一下,现在你的手中有一段视频的第一帧和最后一帧图像,让你负责把中间的图像填进去,生成完整的视频,从现有的有限信息中推断出整个视频。你能做到吗?

这可能听起来像是一项不可能完成的任务,但谷歌人工智能研究部门的研究人员已经开发出一种新系统,可以由视频第一帧和最后一帧生成“似是而非的”视频序列,这个过程被称为“inbetween”。

“想象一下,如果我们能够教一个智能系统来将漫画自动变成动画,会是什么样子?如果真实现了这一点,无疑将彻底改变动画产业。“该论文的共同作者写道。“虽然这种极其节省劳动力的能力仍然超出目前最先进的水平,但计算机视觉和机器学习技术的进步正在使这个目标的实现越来越接近。”

原理与模型结构

这套AI系统包括一个完全卷积模型,这是是受动物视觉皮层启发打造的深度神经网络,最常用于分析视觉图像。它由三个部分组成:2D卷积图像解码器,3D卷积潜在表示生成器,以及视频生成器。

图1:视频生成模型示意图

图像解码器将来自目标视频的帧映射到潜在空间,潜在表示生成器学习对包含在输入帧中的信息进行合并。最后,视频生成器将潜在表示解码为视频中的帧。

研究人员表示,将潜在表示生成与视频解码分离对于成功实现中间视频至关重要,直接用开始帧和结束帧的编码表示生成视频的结果很差。为了解决这个问题,研究人员设计了潜在表示生成器,对帧的表示进行融合,并逐步增加生成视频的分辨率。

图2:模型生成的视频帧序列图,对于每个数据集上方的图表示模型生成的序列,下方为原视频,其中首帧和尾帧用于生成模型的采样。

实验结果

为了验证该方法,研究人员从三个数据集中获取视频 - BAIR机器人推送,KTH动作数据库和UCF101动作识别数据集 - 并将这些数据下采样至64 x 64像素的分辨率。每个样本总共包含16帧,其中的14帧由AI系统负责生成。

研究人员为每对视频帧运行100次模型,并对每个模型变量和数据集重复10次,在英伟达Tesla V100显卡平台上的训练时间约为5天。结果如下表所示:

表1:我们报告了完整模型和两个基线的平均FVD,对每个模型和数据集重复10次,每次运行100个epoch,表中FVD值越低,表示对应生成视频的质量越高。

表2:使用直接3D卷积和基于的替代方法的模型的平均SSIM

RNN(SDVI)或光流(SepConv和SuperSloMo),数值越高越好。

研究人员表示,AI生成的视频帧序列在风格上与给定的起始帧和结束帧保持一致,而且看上去说得通。“令人惊喜的是,这种方法可以在如此长的时间段内实现视频生成,”该团队表示,“这可能给未来的视频生成技术研究提供了一个有用的替代视角。”

参考链接:

https://venturebeat.com/2019/05/28/googles-ai-can-create-videos-from-start-and-end-frames-alone/

论文链接:

https://arxiv.org/pdf/1905.10240.pdf

本文分享自微信公众号 - 新智元(AI_era)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-05-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • DeepMind视频行为分类竞赛,百度IDL获第一,新算法披露

    【新智元导读】ActivityNet竞赛是目前视频动作分析领域影响力最大的赛事。上月,2017年竞赛组织者通过官网宣布了本届比赛的成绩。其中,来自百度深度学习实...

    新智元
  • 微软视觉智能技术突破: 首次 bot 生成视频标题,将开源大型数据库

    【新智元导读】台湾国立清华大学与微软合作,首次实现了让机器自动生成视频标题。他们创建了一个系统,可以由机器人观看视频、找出视频中的亮点,然后生成简洁、吸引眼球的...

    新智元
  • 机器学习理解视频重点,微软视觉智能技术突破

    【新智元导读】台湾国立清华大学与微软合作,首次实现了让机器自动生成视频标题。与生成视频描述不同,生成标题需要理解视频内容,抓住重点,用自然语言给出吸引人的概括(...

    新智元
  • 视频上云解决方案EasyCVR发布linux版本

    视频行业发展到现在,已经不再满足于网页观看,视频上云直播成为越来越多企业的需求。视频智能化是系统建设的演化方向,以视频为核心、依靠智能物联场景的云架构,对实现资...

    EasyNVR
  • 为什么我们需要短视频软件开发,短视频究竟给我们带来了什么

    短视频软件开发作为泛娱乐时代流行的娱乐方式,正逐渐深入到人们的日常生活中,逐渐成为一种文化现象,对于大多数人来说,短视频软件开发已经互鉴成为最重要的社交方式。短...

    云豹kj的晨曦
  • 移动平台上的视频主观质量评价

    本文是来自MHV(Mile High Video)2019的演讲,演讲者来自于Twitter公司的Sebastiaan Van Leuven。本次演讲主要讲述如...

    用户1324186
  • 【深度】机器学习如何帮助Youtube 实现高效转码?

    GAIR 今年夏天,雷锋网将在深圳举办一场盛况空前的“全球人工智能与机器人创新大会”(简称GAIR)。大会现场,雷锋网将发布“人工智能&机器人Top25创新企...

    AI科技评论
  • DeepMind视频行为分类竞赛,百度IDL获第一,新算法披露

    【新智元导读】ActivityNet竞赛是目前视频动作分析领域影响力最大的赛事。上月,2017年竞赛组织者通过官网宣布了本届比赛的成绩。其中,来自百度深度学习实...

    新智元
  • 刺激!一行代码就可下载b站等全网视频!

    大家昨天朋友圈应该都被何冰老师《后浪》演讲视频刷屏了,小破站属实也是火了一把。里面也是出现了很多精彩让人产生共鸣的话,比如:

    Python进阶者
  • 短视频源码开发的难点,这份干货请收好!

    纵看近几年,短视频的高度已经到达了该行业缓慢发展的阶段,参与的人也越来越多,但是我们在开发前需要清楚的知道在开发过程中会遇到哪些难题?了解短视频源码开发的难度大...

    布谷安妮

扫码关注云+社区

领取腾讯云代金券