媒体生产中的人工智能

前言

人工智能和机器学习技术的进步,使得制造商和广播公司能够开发和实现更加智能的工具和应用,以加速整个产品的生命周期。对广播公司而言,人工智能的吸引力在于其在利用机器来了解受众需求,管理数据,过滤特定主题的内容以及生产原创内容等方面表现出的高效性。本文将分生成视频,决定创意,简化编辑和优化存档四个方面介绍人工智能在媒体生产中的应用,重点是生成视频。

生成视频

视频摘要

好莱坞开始使用人工智能来简化预告片的生成方式。基本方法是利用人工智能识别影片中的关键情节点,并根据已经知道的预告片和观众对这些预告片的反应来生成精简的预告片版本2017年9月,在20世纪福克斯的科幻恐怖电影《Morgan》的预告片(https://youtu.be/gJEzuYynaiw)中,人工智能第一次作为一项工具登上了舞台。《Morgan》的制片厂使用了IBM的Waston(一台拥有人工智能功能的超级计算机)来制作电影的预告片。IBM的研究人员将100个与《Morgan》同类型的电影预告片按照“场景”切分,用于训练Waston。Waston从视觉,听觉和情绪的角度分析数据,以“学习”什么使恐怖电影预告片更吸引人。当系统获得了对标准科幻恐怖电影预告片的“理解”,研究人员将90分钟的电影《Morgan》交给Waston,Waston立即推荐了10个“场景”共6分钟的镜头作为预告片。整个过程从开始到结束共花费了24小时,相比之下,传统的电影预告片开发过程通常需要几个星期。 IBM Waston Media高级产品经理David Kulczar说,“《Morgan》只是一个试点,我们将看到越来越多的接班人向这个方向前进。”IBM Waston在体育界也有过类似的尝试——通过从多个角度实时分析网球比赛过程中的视频片段和粉丝的反应,来生成比赛精彩片段。Kulczar强调,“我们正在朝着自动生产和在生产过程中使用人工智能技术的方向前进。”

国内的媒体也在积极尝试。2017年12月26日,中国第一个媒体人工智能平台“媒体大脑”由新华社正式发布上线。当日上午,中国第一条MGC(机器产生内容)视频新闻产生,机器仅耗时10.3秒,就生产出了一条2分08秒的视频新闻。MGC新闻,即运用人工智能技术,由机器智能产生的新闻。其生产过程是:首先通过摄像头、传感器、无人机等方式获取新的视频、数据信息,然后经由图像识别、视频识别等技术让机器进行内容理解和新闻价值判断。依托于大数据的“媒体大脑”会将新理解的内容与已有数据进行关联,对语义进行检索和重排,以智能生产新闻稿件。同时,人工智能还将基于文字稿件和采集的多媒体素材,经过视频编辑、语音合成、数据可视化等一系列过程,最终生成一条富媒体新闻。

人脸替换

近期大热的人工智能项目deepfakes,可以实现给视频中的人物换脸。如果把明星演的电影,主角的脸换成你的,是一张你的会动会有表情的脸,是不是会很有趣?

完成视频换脸,你需要做的事:

  • 收集照片

分别收集需要进行替换的两个人的图像,可以使用各种图片搜索引擎。

  • 从原始照片中提取面部图像

可以使用OpenCV提供的人脸检测函数,采用的算法是方向梯度直方图(Histogramof Oriented Gradient, HOG)。

  • 在照片上训练模型

训练模型的一种方法是使用自动编码器(autoencoder),自动编码器的结构如下图所示:

左半部分是编码器(Encoder),右半部分是解码器(Decoder),输入的数据经过神经网络降维到一个编码(code),接着又通过另外一个神经网络去解码得到一个与输入原数据一摸一样的生成数据,然后通过去比较这两个数据,最小化他们之间的差异来训练这个网络中解码器和编码器的参数。

Deepfakes需要训练两个自动编码器,第一个自动编码器只与需要被替换的人脸相关。训练得到编码器和解码器A。

第二个自动编码器只与用来替换的人脸相关,与第一个自动编码器共享同一个编码器,训练得到解码器B。

  • 使用模型转换原视频

在原视频中检测出需要替换的人脸,将这些图片输入到训练好的编码器中,用解码器B解码,然后替换回原视频中。

内容修改

内容结构和基于对象的分析开辟了人工智能协助实际内容开发的新途径。学习屏幕上角色的行为,走动,谈话以及所有可能的面部表情的细节,人工智能系统可以创建出虚拟的表演。华盛顿大学的研究人员创造了一个超现实的巴拉克·奥巴马发表的演讲,事实上他并没有给出过这样的演讲:

http://nationalpost.com/news/world/ai-creates-hyper-realistic-video-of-barack-obama-delivering-a-speech-he-never-gave。

这个演讲中的部分内容,是来自奥巴马的其它演讲,结果是奥巴马在西区演讲的视频,包含了许多他在其它场合发表的言论,甚至还有奥巴马模仿者的话语。

其基本流程如下图所示:

  • 基于训练好的循环卷积神经网络(Recurrent Neural Networks, RNN)将输入的音频转化为一段嘴型序列
  • 合成嘴部纹理
  • 增强纹理细节和牙齿
  • 将嘴型与真实视频中的脸部混合并且匹配头部动作

该技术引起了一些令人不安的可能性,但研究人员表示,目前为止使用这种技术发表的任何虚假言论都相对容易被发现,甚至可以使用相同的技术对其他视频进行逆向工程,以确定它们是否是假的。

人工智能在内容创造的领域还只是迈出了一小步。生产过程中仍然存在许多方面可以从人工智能获益。

决定创意

制造商使用神经网络来综合多种复杂因素,以确定哪种类型的内容值得生产。例如,如果你知道你的电视剧视频具有最高的浏览量,通常情况下,你可能倾向于制作更多的电视剧视频。但是,如果考虑到其他因素(如生产成本,人才成本,权利和许可,受众参与,社交传播,联合机会等),你可能会发现喜剧视频往往具有较高的投资回报率。人工智能是推动这些深度计算的引擎。

2016年3月日本广告公司MaCann Erickson推出了名为AI-CD ß的人工智能创意总监。驱动这个人工智能创意总监的机器学习算法的训练数据包括电视节目以及近十年日本电视节获奖作品的详细信息。通过数据挖掘,系统可以提取适合特定客户的广告创意和主题。

2016年9月,AI-CD ß与MaCannErickson创意总监Mitsuru Kuramoto进行了一场友谊赛,为一个薄荷糖品牌制作广告,广告最终由民意测验来评判。虽然最终AI-CD ß以46%:54%惜败Mitsuru Kuramoto。但是这个尝试显示了人工智能在广告制作上的前景。

简化编辑

使用传统的方法,基于数小时的原始镜头来制作纪录片,通过手动排序和捕获某素材的相关信息将耗费数周时间,更不用说汇总相关的片段进行编辑了。使用人工智能,可以通过两种方式消除大部分的时间:(1)通过面部,对象和文本识别自动捕获大量的元数据;(2)通过优化搜索,快速找到内容池中的关键帧。这样,当编辑需要特定帧的时候,可以使用人工智能更快地找到它。

优化存档

假设你在素材上花了很多钱,想从中获得最大的收益。人工智能可以通过强大的元数据捕获技术对现有内容进行索引,你会发现现有的存档内容可以更容易地重新调整以供将来使用。例如,在一个已经购买的素材包内找到相关的视频片段来补充一场直播可以在几分钟内完成而不是几个小时。目前Ooyala Flex与Microsoft Video Indexer在这一领域有密切的合作,希望使用这项技术帮助发行商克服传统方法繁琐的缺点。

总结

对于人工智能现在以及将来会给媒体生产带来的影响,Valossa首席执行官兼首席技术官Mika Rautiainen表示,不断变化的媒体形式以及对消费和创造的挑战意味着视频需要更快速地生成,并且通过多平台以不同的格式提供。“所有这些都需要创建,制作,交付和管理录制的视频材料的更高效的流程... AI可以得到有效的培训,以简化最耗时和重复的流程”。

参考文献:

[1] http://n.cztv.com/news/12780241.html

[2] https://github.com/joshua-wu/deepfakes_faceswap/

[3] https://www.youtube.com/watch?v=7XchCsYtYMQ

[4] https://sherlockliao.github.io/2017/06/24/vae/

[5] http://nationalpost.com/news/world/ai-creates-hyper-realistic-video-of-barack-obama-delivering-a-speech-he-never-gave

[6] http://www.mediaentertainmentinfo.com/2017/09/top-10-areas-artificial-intelligence-is-leading-automation-in-media-industry.html/

[7] https://www.techemergence.com/ai-in-movies-entertainment-visual-media/

https://www.sportsvideo.org/2017/12/01/ooyala-white-paper-how-al-is-transforming-media-production/

[8] https://www.ibc.org/tech-advances/artificial-intelligence-in-the-real-world/2562.article

https://www.ibc.org/tech-advances/the-future-is-artificial-ai-adoption-in-broadcast-and-media/2549.article?adredir=1

[9] https://www.ibc.org/tech-advances/ai-transforming-media-production-/2638.article

原文发布于微信公众号 - 媒矿工厂(media_tech)

原文发表时间:2018-02-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

这家AI创业公司说,听完1分钟音频就能合成出你的声音

安妮 编译整理 量子位 出品 | 公众号 QbitAI 如果以后智能家居产品用Angelababy的声音叫你起床,电子词典用川普的声音教你学英语,你可千万不要太...

2896
来自专栏机器人网

机器人如何躲避移动物体?MIT研究出了新招

麻省理工学院(MIT)日前发布了一种新的机器人算法,利用4D地图帮助机器人躲避移动物体。让机器人躲避固定障碍物可能已经不是什么难题,如翻过一堵 墙,绕过一套家具...

3079
来自专栏ATYUN订阅号

MIT研究团队致力于用AI革新日常用品

机器学习是实践中人工智能的一个例子。智能系统和设备已经普及到我们日常生活的结构中。电脑和手机使用脸部识别来解锁;系统感知并调整我们家中的温度;设备回答问题或按需...

662
来自专栏专知

【业界】新的图像传感器给汽车装上眼睛

【导读】自动驾驶在技术上的进步很大程度上依赖各种传感设备,而各种图像传感器更是汽车能够看清周围世界的眼睛,这一领域也逐渐成为各大芯片公司竞争的焦点,我们来一览这...

2333
来自专栏新智元

【高考40周年】机器人数学考了134分,要上清华北大NLP是最大难关

【新智元导读】 高考恢复40周年,机器人已经开始挑战高考:昨天学霸君和准星云学的机器人解答2017年高考数学科目的试卷,并且学霸君机器人Aidam还与6位高考状...

2625
来自专栏人工智能快报

麻省理工机器学习峰会:人工智能重塑世界

据麻省理工学院网站报道,在麻省理工学院和风险投资公司Pillar联合举办的机器学习峰会上,行业领导者、计算机科学家以及风险投资家汇聚一堂,讨论智能计算机如何重塑...

2746
来自专栏新智元

【深度学习看手相】台湾学生获奖 AI 项目是科学还是伪科学?

【新智元导读】 本周日带来一个有趣的研究——台湾的研究者使用深度学习用于看手相的项目。他们结合了看手相、深度学习和聊天机器人,以2000张人手照片作为基础数据,...

3238
来自专栏新智元

【中国战队包揽234却无缘冠军】OpenAI 的 Dota2 机器人强在哪?

【新智元导读】DOTA2 经典赛事TI7国际邀请赛决出最后冠军,中国团队虽占据234名但无缘冠军。回顾本届比赛,Open AI 的机器人因为战胜了人类玩家而大放...

3054
来自专栏程序你好

人工智能在牙科领域的未来

我们中的一些人还记得威尔·罗宾逊在20世纪60年代的《迷失太空》系列中忠实的机器人朋友。其他人将把智能自动机器人的科幻愿景追溯至《终结者》(Terminator...

562
来自专栏人工智能

意识是人工智能生命的最后一块拼图

十个程序员中,九个人所编写的第一个代码是“hello world”。仿佛新生儿降世的第一声啼哭,“hello world”就像一台冰冷的机器第一次睁开了眼,对世...

1806

扫描关注云+社区