前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >这个AI能预测未来并生成逼真的视频(论文来自谷歌大脑、北航等)

这个AI能预测未来并生成逼真的视频(论文来自谷歌大脑、北航等)

作者头像
量子位
发布2018-03-30 16:15:30
1.5K0
发布2018-03-30 16:15:30
举报
文章被收录于专栏:量子位量子位
问耕 若朴 编译整理 量子位 报道 | 公众号 QbitAI

先展示成果。下面是一组动图,展示的是AI如何根据一段视频,脑补出未来64帧的画面。

观看说明:当视频外框为绿色时,为真实视频;当外框变红时,为AI生成的“假”视频。最左边是今天要介绍的方法,中间和右边用以前方法达到的效果。

需要补充说明的是,每个动作都没有进行针对性的训练,所有视频都是同一个模型生成。

是不是效果惊人的好?这个能预测并脑补未来视频的AI,几位学者的共同成果:

密歇根大学:Ruben Villegas、Yuliang Zou、Sungryull Sohn

Adobe研究所:Jimei Yang

北京航空航天大学:Xunyu Lin

Google大脑:Honglak Lee

论文摘要

他们的论文是《通过分层预测来学习生成长期未来》(Learning to Generate Long-term Future via Hierarchical Prediction)。

顾名思义,在论文中他们提出使用分层的方法,对视频的未来进行长期预测。为了避免递归像素级预测中的固有复合误差,作者建议首先估计输入帧中的高层级结构,然后预测未来结构演变的方式,最后通过观察过去的单帧和预测的高层级结构,来构建未来的帧,而不必观察任何像素级预测。

通过循环观察预测帧,很难进行长期视频预测。因为随着预测进一步深入,像素空间中的小误差指数地放大。而新的方法通过消除观察预测帧的需要来防止像素级错误传播。

这个模型是用LSTM和基于类比的编解码卷积神经网络的组合构建的,它们分别独立地预测视频结构并产生未来帧。

在实验中,这个模型在Human 3.6M和Penn Action数据集上,对人类动作的长期像素级视频预测任务进行了评估,并显示出比现有技术更好的结果。

结构概览

这是像素级视频预测的总体层次化方法。 这个算法首先观察过去的帧,并估计每个帧中的高层级结构(人类姿态xy坐标)。然后使用估计的结构来预测未来的结构序列方式。

最后,这个算法基于最后一个观测帧,按照所估计结构和预测结构序列,生成未来帧。下图 绿框表示输入到网络,红框表示从网络中输出。

数值评估

对于效果的评估,使用了类似Vondrick等人的人类心理-物理定量评估标准。这里也利用了Amazon Mechanical Turk (AMT) 的服务,来鉴别哪一个视频更逼真。

评估结果这里略过了,当然是更好。

另外基于运动的像素级评估,分析和控制实验表明,分层方法是解决长期像素级视频预测问题的正确一步。

长期帧生成

除此以外,如果能给定准确的未来姿势轨迹,这个模型还能生成多达1000帧的视频。效果如下图所示。这也被认为进一步证明了分层预测的正确性。

视频内容

局限和未来

尽管效果惊人,几位作者表示他们的方法并不完美,并且有以下局限有待继续解决。

· 自动发现结构

这次论文试用了姿态注释作为结构信息,未来的目标是自动发现。

· 预测更多未来

目前这个网络智能预测一种未来的结果。

· 处理背景

这是一个更具挑战的任务,目前网络还难以想象背景未来会如何变化。

论文和代码

论文地址:

https://arxiv.org/abs/1704.05831

关于代码:

他们说“coming soon”

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-04-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 论文摘要
  • 结构概览
  • 数值评估
  • 长期帧生成
  • 局限和未来
  • 论文和代码
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档