新算法借助几段文字创作视频,电影很可能也将被人工智能所颠覆!

没能和著名电影制片厂合作、拿不到大笔预算和强大资源的电影编剧们可能很快会有另一种制作电影的方法——因为最近开发的一种算法能够通过分析一个(很短的)剧本,从而创作相应的视频短片。这些由算法构建出的电影虽然离奥斯卡影片还有很远的距离,但是其应用场景不仅仅局限于电影产业。比如说,类似的计算机技术可以被警方利用,从而从目击者的供词中还原车祸或犯罪现场的场景。

目前,人工智能(AI)在识别图像内容与提供标签这些方面已经获得了长足的进步;可是相关的“生成”算法反其道而行之,希望能从标签(例如脑部扫描图)中构建图像。例如有的“生成”算法能够通过分析一幕电影截图,推测下几幕的剧情发展。但是将这些技术结合起来并不容易——先是需要从文字中构建一幅图像,再是让图像中的物体切合实际地根据文字描述运动起来——这一计划是史无前例的。

“据我所知,在文字转化视频的多次尝试中,这是第一个可以带来如此好的效果的算法。这一算法生产出的结果并不完美,但是至少它们看上去像是真实视频。”比利时鲁汶天主教大学的一名计算机科学家Tinne Tuytelaars这样评价,“这是很不错的成果。”Tuytelaars目前也致力于视频预测工作。

这一新算法是机器学习的一种,这就意味着它需要训练。具体而言,这是一个神经网络,由多层的运算节点组成,以一种与人类脑神经处理信息的相似方式处理数据。在“训练”过程中,算法会记录每一次计算后的正确与否,并且会运用记录的结果改良网络中节点的权重,力求未来的计算更准确。

这种文字——视频转化神经网络的运行过程由两个阶段组成。研究者们描述其理念是“模仿人类艺术创作的过程”。第一阶段是提炼文字,创造视频内容的“梗概”,也就是创作一个视频背景的模糊图案,加上一个按照文字描述产生的简略的运动过程。第二阶段中,神经网络的作用是一个“鉴别者”。比如说, 前一阶段的算法生成了一个“在大海中驾驶帆船”的视频。这个视频将和实际拍摄的海上航行视频放在一起,让鉴别者选择哪一个视频是真实的。经过多轮训练后,作为“鉴别者”的算法会变得更加仔细,其反馈也对“生成”算法生成的视频提出了更高的标准。因此,“生成”算法能够逐步生产出更精细的视频。

研究者们在算法上训练了10种场景,包括“在草地上打高尔夫”“在大海中风筝冲浪”等,算法都按照文字生成了噪点很大的VHS视频素材。尽管如此,研究者们在美国路易斯安那州新奥尔良人工智能促进协会(the Association for the Advancement of Artificial Intelligence)的报告中称,如果使用一个简单的分类算法从六个选择中选择正确的视频内容,半数时间的选择结果都是正确的(不过“帆船”和“风筝冲浪”经常被弄混)。除此之外,这个算法还能够创作出一些“不合理的行为”,比如“在雪地里驾驶帆船”和“在泳池里打高尔夫”。

“他们这一方法结合了两个阶段,非常有趣。”马里兰大学巴尔的摩分校,同样进行视频预测研究的Hamed Pirsiavash这样评价称,“这是一个非常困难的问题,我很高兴看到这些人取得了很好的进展。”

目前,这些算法创作的视频仅有32帧——大概持续一秒的时间——并且仅有64×64像素,大概邮票大小。该算法论文的第一作者,杜克大学(Duke University)的Yitong Li表示,更大的分辨率和更长的视频长度都会减小准确性。与此同时,由于视频中生成的人体形状都非常扭曲,他下一步会使用人体骨骼模型来改善视频中的人体运动。

Tuytelaars预测这种算法在好莱坞以外有非常多的应用场景。视频生成算法能够将电影进行进行更好的压缩存储,或者可以为其它机器学习算法生成训练数据。比如说,较为真实的视频能够训练自动驾驶汽车规避一般情况下很难遇到的危险路况。Pirsiavash也说,深刻理解视觉世界的程序可以被用来开发从赛事裁判到视频监控等一系列有用的应用程序。它们可以帮助自动驾驶汽车预测路上的一台摩托车将要去哪里,或者训练家用机器人打开冰箱。

由AI创造的好莱坞大片可能离我们还很远,但是随着AI在视频产业中的发展,我们终于能知道“在草丛中风筝冲浪”是什么样子了。

  • 发表于:
  • 原文链接:http://kuaibao.qq.com/s/20180227A0P90U00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券