媒体生产中的人工智能

前言

人工智能和机器学习技术的进步,使得制造商和广播公司能够开发和实现更加智能的工具和应用,以加速整个产品的生命周期。对广播公司而言,人工智能的吸引力在于其在利用机器来了解受众需求,管理数据,过滤特定主题的内容以及生产原创内容等方面表现出的高效性。本文将分生成视频,决定创意,简化编辑和优化存档四个方面介绍人工智能在媒体生产中的应用,重点是生成视频。

生成视频

视频摘要

好莱坞开始使用人工智能来简化预告片的生成方式。基本方法是利用人工智能识别影片中的关键情节点,并根据已经知道的预告片和观众对这些预告片的反应来生成精简的预告片版本2017年9月,在20世纪福克斯的科幻恐怖电影《Morgan》的预告片(https://youtu.be/gJEzuYynaiw)中,人工智能第一次作为一项工具登上了舞台。《Morgan》的制片厂使用了IBM的Waston(一台拥有人工智能功能的超级计算机)来制作电影的预告片。IBM的研究人员将100个与《Morgan》同类型的电影预告片按照“场景”切分,用于训练Waston。Waston从视觉,听觉和情绪的角度分析数据,以“学习”什么使恐怖电影预告片更吸引人。当系统获得了对标准科幻恐怖电影预告片的“理解”,研究人员将90分钟的电影《Morgan》交给Waston,Waston立即推荐了10个“场景”共6分钟的镜头作为预告片。整个过程从开始到结束共花费了24小时,相比之下,传统的电影预告片开发过程通常需要几个星期。 IBM Waston Media高级产品经理David Kulczar说,“《Morgan》只是一个试点,我们将看到越来越多的接班人向这个方向前进。”IBM Waston在体育界也有过类似的尝试——通过从多个角度实时分析网球比赛过程中的视频片段和粉丝的反应,来生成比赛精彩片段。Kulczar强调,“我们正在朝着自动生产和在生产过程中使用人工智能技术的方向前进。”

国内的媒体也在积极尝试。2017年12月26日,中国第一个媒体人工智能平台“媒体大脑”由新华社正式发布上线。当日上午,中国第一条MGC(机器产生内容)视频新闻产生,机器仅耗时10.3秒,就生产出了一条2分08秒的视频新闻。MGC新闻,即运用人工智能技术,由机器智能产生的新闻。其生产过程是:首先通过摄像头、传感器、无人机等方式获取新的视频、数据信息,然后经由图像识别、视频识别等技术让机器进行内容理解和新闻价值判断。依托于大数据的“媒体大脑”会将新理解的内容与已有数据进行关联,对语义进行检索和重排,以智能生产新闻稿件。同时,人工智能还将基于文字稿件和采集的多媒体素材,经过视频编辑、语音合成、数据可视化等一系列过程,最终生成一条富媒体新闻。

人脸替换

近期大热的人工智能项目deepfakes,可以实现给视频中的人物换脸。如果把明星演的电影,主角的脸换成你的,是一张你的会动会有表情的脸,是不是会很有趣?

完成视频换脸,你需要做的事:

  • 收集照片

分别收集需要进行替换的两个人的图像,可以使用各种图片搜索引擎。

  • 从原始照片中提取面部图像

可以使用OpenCV提供的人脸检测函数,采用的算法是方向梯度直方图(Histogramof Oriented Gradient, HOG)。

  • 在照片上训练模型

训练模型的一种方法是使用自动编码器(autoencoder),自动编码器的结构如下图所示:

左半部分是编码器(Encoder),右半部分是解码器(Decoder),输入的数据经过神经网络降维到一个编码(code),接着又通过另外一个神经网络去解码得到一个与输入原数据一摸一样的生成数据,然后通过去比较这两个数据,最小化他们之间的差异来训练这个网络中解码器和编码器的参数。

Deepfakes需要训练两个自动编码器,第一个自动编码器只与需要被替换的人脸相关。训练得到编码器和解码器A。

第二个自动编码器只与用来替换的人脸相关,与第一个自动编码器共享同一个编码器,训练得到解码器B。

  • 使用模型转换原视频

在原视频中检测出需要替换的人脸,将这些图片输入到训练好的编码器中,用解码器B解码,然后替换回原视频中。

内容修改

内容结构和基于对象的分析开辟了人工智能协助实际内容开发的新途径。学习屏幕上角色的行为,走动,谈话以及所有可能的面部表情的细节,人工智能系统可以创建出虚拟的表演。华盛顿大学的研究人员创造了一个超现实的巴拉克·奥巴马发表的演讲,事实上他并没有给出过这样的演讲:

http://nationalpost.com/news/world/ai-creates-hyper-realistic-video-of-barack-obama-delivering-a-speech-he-never-gave。

这个演讲中的部分内容,是来自奥巴马的其它演讲,结果是奥巴马在西区演讲的视频,包含了许多他在其它场合发表的言论,甚至还有奥巴马模仿者的话语。

其基本流程如下图所示:

  • 基于训练好的循环卷积神经网络(Recurrent Neural Networks, RNN)将输入的音频转化为一段嘴型序列
  • 合成嘴部纹理
  • 增强纹理细节和牙齿
  • 将嘴型与真实视频中的脸部混合并且匹配头部动作

该技术引起了一些令人不安的可能性,但研究人员表示,目前为止使用这种技术发表的任何虚假言论都相对容易被发现,甚至可以使用相同的技术对其他视频进行逆向工程,以确定它们是否是假的。

人工智能在内容创造的领域还只是迈出了一小步。生产过程中仍然存在许多方面可以从人工智能获益。

决定创意

制造商使用神经网络来综合多种复杂因素,以确定哪种类型的内容值得生产。例如,如果你知道你的电视剧视频具有最高的浏览量,通常情况下,你可能倾向于制作更多的电视剧视频。但是,如果考虑到其他因素(如生产成本,人才成本,权利和许可,受众参与,社交传播,联合机会等),你可能会发现喜剧视频往往具有较高的投资回报率。人工智能是推动这些深度计算的引擎。

2016年3月日本广告公司MaCann Erickson推出了名为AI-CD ß的人工智能创意总监。驱动这个人工智能创意总监的机器学习算法的训练数据包括电视节目以及近十年日本电视节获奖作品的详细信息。通过数据挖掘,系统可以提取适合特定客户的广告创意和主题。

2016年9月,AI-CD ß与MaCannErickson创意总监Mitsuru Kuramoto进行了一场友谊赛,为一个薄荷糖品牌制作广告,广告最终由民意测验来评判。虽然最终AI-CD ß以46%:54%惜败Mitsuru Kuramoto。但是这个尝试显示了人工智能在广告制作上的前景。

简化编辑

使用传统的方法,基于数小时的原始镜头来制作纪录片,通过手动排序和捕获某素材的相关信息将耗费数周时间,更不用说汇总相关的片段进行编辑了。使用人工智能,可以通过两种方式消除大部分的时间:(1)通过面部,对象和文本识别自动捕获大量的元数据;(2)通过优化搜索,快速找到内容池中的关键帧。这样,当编辑需要特定帧的时候,可以使用人工智能更快地找到它。

优化存档

假设你在素材上花了很多钱,想从中获得最大的收益。人工智能可以通过强大的元数据捕获技术对现有内容进行索引,你会发现现有的存档内容可以更容易地重新调整以供将来使用。例如,在一个已经购买的素材包内找到相关的视频片段来补充一场直播可以在几分钟内完成而不是几个小时。目前Ooyala Flex与Microsoft Video Indexer在这一领域有密切的合作,希望使用这项技术帮助发行商克服传统方法繁琐的缺点。

总结

对于人工智能现在以及将来会给媒体生产带来的影响,Valossa首席执行官兼首席技术官Mika Rautiainen表示,不断变化的媒体形式以及对消费和创造的挑战意味着视频需要更快速地生成,并且通过多平台以不同的格式提供。“所有这些都需要创建,制作,交付和管理录制的视频材料的更高效的流程... AI可以得到有效的培训,以简化最耗时和重复的流程”。

参考文献:

[1] http://n.cztv.com/news/12780241.html

[2] https://github.com/joshua-wu/deepfakes_faceswap/

[3] https://www.youtube.com/watch?v=7XchCsYtYMQ

[4] https://sherlockliao.github.io/2017/06/24/vae/

[5] http://nationalpost.com/news/world/ai-creates-hyper-realistic-video-of-barack-obama-delivering-a-speech-he-never-gave

[6] http://www.mediaentertainmentinfo.com/2017/09/top-10-areas-artificial-intelligence-is-leading-automation-in-media-industry.html/

[7] https://www.techemergence.com/ai-in-movies-entertainment-visual-media/

https://www.sportsvideo.org/2017/12/01/ooyala-white-paper-how-al-is-transforming-media-production/

[8] https://www.ibc.org/tech-advances/artificial-intelligence-in-the-real-world/2562.article

https://www.ibc.org/tech-advances/the-future-is-artificial-ai-adoption-in-broadcast-and-media/2549.article?adredir=1

[9] https://www.ibc.org/tech-advances/ai-transforming-media-production-/2638.article

原文发布于微信公众号 - 媒矿工厂(media_tech)

原文发表时间:2018-02-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏专知

上帝视角:Facebook,MIT等发布大规模卫星图像理解数据挑战赛DeepGlobe 2018

2922
来自专栏新智元

【视觉计算方式变革】孙剑:计算力增加10000倍,算法如何设计(60ppt)

演讲嘉宾:孙剑 采访&整理:佩琦 编辑:弗格森 【新智元导读】旷视科技首席科学家、研究院院长孙剑博士在AI World 2017世界人工智能大会上接受新智...

3568
来自专栏新智元

【报告】邓志东:人工智能前沿技术与产业发展趋势(53PPT)

【新智元导读】感谢清华大学计算机系教授邓志东向新智元投稿,他在《人工智能前沿技术与产业发展趋势》报告中指出,深度学习是人工智能的最新突破,一定要和大数据结合起来...

4747
来自专栏钱塘大数据

张钹院士:深度学习的优势与短板 中国AI机遇和挑战

在首届世界智能大会上,中国科学院院士张钹发表了题为《基于大数据的人工智能》演讲,分享了中美人工智能差异、深度学习成功的三大法宝、隐患与短板以及中国如何实现人工智...

871
来自专栏AI科技大本营的专栏

@那些想要转行AI的人:送你一份人工智能入门指南

翻译 | AI科技大本营(rgznai100) 参与 | 彭硕 人工智能是什么?人工智能为何重要?我们应该畏惧人工智能吗?为什么突然之间所有人都在谈论人工智能?...

3424
来自专栏AI科技评论

写影评、看图写诗、甚至生成视频,微软亚洲研究院梅涛博士讲解视频理解的最新进展 | CCF-GAIR 2017

AI科技评论按:7月7号,全球人工智能和机器人峰会在深圳如期举办,由CCF主办、雷锋网与香港中文大学(深圳)承办的这次大会共聚集了来自全球30多位AI领域科学家...

3817
来自专栏PPV课数据科学社区

【职业】以什么姿势进入DataMining会少走弯路?

前言:大数据时代早已经来临,很多年轻人急着闹着想要跻身于大数据行业,不免也有一些不得志的中年人。自然而然的会报各种培训班,理所当然认为付出总有一天会赚回来的。但...

3035
来自专栏新智元

为什么人工智能没有让互联网变得更智能?

商业互联网已经出现20多年,但从你收到第一份电子情书到现在,互联网的整体用户体验并没有太多变化。 互联网最初仅被用于政府,高校和企业通用的研发工具。随着超链接的...

3155
来自专栏新智元

【深度】AI 入侵翻译,神经机器翻译进化让巴别塔7年内成真

【新智元导读】 随着AlphaGo战胜柯洁,AI 所激起的惊慌不仅在围棋界蔓延,而且扩展到了几乎每一个领域,翻译受到的冲击尤为严重。深度学习的出现极大地变革了机...

56218
来自专栏数据猿

2017年十本必读的大数据&人工智能领域书籍,你都读过吗?

【数据猿导读】年关将至,回顾2017,小编记得自己曾在年初的时候给自己定下一个小目标——就是读30本书。然而随着春节的临近,小目标却成了遥不可及的梦。不知道在过...

60613

扫码关注云+社区