【研究】国外研究:一种可以通过文本描述直接生成视频的新方法

最近,一种新的方法可能会让电影编剧拒绝来自大型电影制片厂的巨额预算和强大资源 — 依靠文本进行视频生成(Video Generation from Text)。当然,从目前来看,生成的电影不可能去参选奥斯卡。但也许在未来,这样的技术可以在娱乐之外找到用途,比如帮助目击者重现车祸或犯罪现场等。

这个算法来自于最近的一篇论文(见下方链接)。它通过训练一个判别生成模型提取文本中静态和动态的信息。他是一个使用变分自编码器(VAE)和生成式对抗网络的混合框架(GAN)。

框架图

人工智能(AI)在识别图像的内容并提供标记的方面做的越来越好。这里的算法就是另一种从标签产生图像的方式。少数甚至可以从单个电影画面中预测下一个画面。但是从文本创建图像,并使它按照文本的描述运动,这样的方式还是第一次。

“据我所知,这是第一部看得过去的文本转视频作品。虽然并不完美,但至少他们看起来像是真正的视频。“比利时鲁汶大学的计算机科学家Tinne Tuytelaars表示,他自己也在做视频预测方面研究。

研究人员表示,该网络分两个阶段进行,旨在模仿人类创造艺术的方式。第一阶段使用文本创建视频的“gist”,一般是背景颜色和对象布局的模糊图像,主要动作发生在模糊的斑点上。第二阶段同时考虑到gist和文本,并产生一段短片。在训练时,第二个网络充当鉴别器。如果它看到生成的视频用于说明“海上航行”,那么它被训练选择“真实”海上航行的视频。当鉴别器变好后,它就会变得更加严格,为生成网络设置更高的标准。

研究人员对10种场景进行了算法训练,包括“在草地上打高尔夫球”和“在海上进行风筝冲浪”,然后粗糙的进行重制(画质极差)。一个简单的分类算法,猜测六种选择中的行为正确率大约有50%。(航海和风筝冲浪经常搞混)。此外,该网络还可以制造出一些不现实的视频,例如“ 在雪上航行 ”,以及“ 在游泳池打高尔夫球 ”等。

文本的视频生成样本(红圈表示生成视频中行动的中心)

目前,这些视频只有32帧长约1秒,大小为64×64像素。论文的第一作者,杜克大学的计算机科学家Yitong Li表示,如果数据再大会降低准确性。并且目前的技术只能处理相对平滑的动态变化,无法对过快的动作或背景变化进行处理。他们计划在未来通过生成人类的姿态或骨骼特征构建更为强大的视频生成器,以解决这些障碍。

  • 论文:http://www.aaai.org/GuideBook2018/16152-72279-GB.pdf
  • 文件:http://www.cs.toronto.edu/pub/cuty/Text2VideoSupp/

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2018-02-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据科学与人工智能

【数据挖掘】数据挖掘中应该避免的弊端

1. 缺乏数据(Lack Data) 对于分类问题或预估问题来说,常常缺乏准确标注的案例。 例如:欺诈侦测(Fraud Detection):在上百万的交易中...

2868
来自专栏数据科学与人工智能

【经验】普通程序员如何转做人工智能

小编邀请您,先思考: 1 您擅长那种编程语言? 2 您了解深度学习,机器学习和人工智能吗? 我曾经也只是一个只懂 ACM 竞赛相关算法的普通程序员,误打误撞接触...

3978
来自专栏新智元

【深度】申省梅颜水成团队获国际非受限人脸识别竞赛IJB-A冠军,主要负责人熊霖技术分享

作者:熊霖 赵健 徐炎 采访:闻菲 【新智元导读】开发出精确的和可扩展的无约束人脸识别算法,是生物识别和计算机视觉领域长期以来不断追求的目标。为了促进非受限...

5487
来自专栏PPV课数据科学社区

【推荐】再谈数据挖掘——时序预测初探

1. 背景 先来看两个例子,下面两幅图展示了百度在趋势预测方面的应用案例,一个是世界杯期间的比赛输赢预测,另一个是北京各旅游景区的游客人数预测。 ? ? 这两...

3454
来自专栏AI科技大本营的专栏

周杰伦林俊杰李宗盛快失业了!有了AI,未来人人都能秒变作曲家

译者 | thinkdeeper 编辑 | 鸽子 有没有想过,未来你也可以像周杰伦、林俊杰、李宗盛一样成为创作型的音乐人?你要的,只是感觉,其他的,人工智能的研...

3269
来自专栏CDA数据分析师

不可错过的优质深度学习课程

原作者   David Venturi 编译 CDA 编译团队 本文为  CDA 数据分析师原创翻译作品,转载需授权 几乎每天都可以看到深度学习改变日常生活的新...

25610
来自专栏CDA数据分析师

手把手教你通过游戏解决交通拥堵丨MIT深度学习公开课丨附课程PDF下载

作者 CDA 数据分析师 被堵在路上是件心累又烧钱的事儿,除了让人头疼还可能错过重要的约会。据统计,美国每年因交通堵塞的直接损失达到 780 亿美元。今年,M...

3025
来自专栏新智元

【Nature雄文】当深度学习遇上生物学——440篇bioRxiv相关讨论创史上之最

新智元编译 来源:Nature 作者:Sarah Webb 编译:赵以文 【新智元导读】深度学习为分析生物大数据提供了强大的工具。BioRxiv预印本服...

55015
来自专栏灯塔大数据

数据挖掘 | 避免弊端方法汇总大全,实用!

导语:数据挖掘最重要的要素是分析人员的相关业务知识和思维模式。我们在掌握丰富的业务知识同时,如果能够按照正确的思维模式去思考问题,将会发现解决问题并不是很困难...

3556
来自专栏AI科技评论

深度 | Pedro Domingos解析机器学习五大流派中的算法精髓

Pedro Domingos是华盛顿大学计算机科学与工程学教授,也是国际机器学习协会的联合创始人之一。他曾在IST Lisbon获得电子工程和计算科学的硕士学位...

3915

扫码关注云+社区

领取腾讯云代金券