媒体生产中的人工智能

前言

人工智能和机器学习技术的进步,使得制造商和广播公司能够开发和实现更加智能的工具和应用,以加速整个产品的生命周期。对广播公司而言,人工智能的吸引力在于其在利用机器来了解受众需求,管理数据,过滤特定主题的内容以及生产原创内容等方面表现出的高效性。本文将分生成视频,决定创意,简化编辑和优化存档四个方面介绍人工智能在媒体生产中的应用,重点是生成视频。

生成视频

视频摘要

好莱坞开始使用人工智能来简化预告片的生成方式。基本方法是利用人工智能识别影片中的关键情节点,并根据已经知道的预告片和观众对这些预告片的反应来生成精简的预告片版本2017年9月,在20世纪福克斯的科幻恐怖电影《Morgan》的预告片(https://youtu.be/gJEzuYynaiw)中,人工智能第一次作为一项工具登上了舞台。《Morgan》的制片厂使用了IBM的Waston(一台拥有人工智能功能的超级计算机)来制作电影的预告片。IBM的研究人员将100个与《Morgan》同类型的电影预告片按照“场景”切分,用于训练Waston。Waston从视觉,听觉和情绪的角度分析数据,以“学习”什么使恐怖电影预告片更吸引人。当系统获得了对标准科幻恐怖电影预告片的“理解”,研究人员将90分钟的电影《Morgan》交给Waston,Waston立即推荐了10个“场景”共6分钟的镜头作为预告片。整个过程从开始到结束共花费了24小时,相比之下,传统的电影预告片开发过程通常需要几个星期。 IBM Waston Media高级产品经理David Kulczar说,“《Morgan》只是一个试点,我们将看到越来越多的接班人向这个方向前进。”IBM Waston在体育界也有过类似的尝试——通过从多个角度实时分析网球比赛过程中的视频片段和粉丝的反应,来生成比赛精彩片段。Kulczar强调,“我们正在朝着自动生产和在生产过程中使用人工智能技术的方向前进。”

国内的媒体也在积极尝试。2017年12月26日,中国第一个媒体人工智能平台“媒体大脑”由新华社正式发布上线。当日上午,中国第一条MGC(机器产生内容)视频新闻产生,机器仅耗时10.3秒,就生产出了一条2分08秒的视频新闻。MGC新闻,即运用人工智能技术,由机器智能产生的新闻。其生产过程是:首先通过摄像头、传感器、无人机等方式获取新的视频、数据信息,然后经由图像识别、视频识别等技术让机器进行内容理解和新闻价值判断。依托于大数据的“媒体大脑”会将新理解的内容与已有数据进行关联,对语义进行检索和重排,以智能生产新闻稿件。同时,人工智能还将基于文字稿件和采集的多媒体素材,经过视频编辑、语音合成、数据可视化等一系列过程,最终生成一条富媒体新闻。

人脸替换

近期大热的人工智能项目deepfakes,可以实现给视频中的人物换脸。如果把明星演的电影,主角的脸换成你的,是一张你的会动会有表情的脸,是不是会很有趣?

完成视频换脸,你需要做的事:

  • 收集照片

分别收集需要进行替换的两个人的图像,可以使用各种图片搜索引擎。

  • 从原始照片中提取面部图像

可以使用OpenCV提供的人脸检测函数,采用的算法是方向梯度直方图(Histogramof Oriented Gradient, HOG)。

  • 在照片上训练模型

训练模型的一种方法是使用自动编码器(autoencoder),自动编码器的结构如下图所示:

左半部分是编码器(Encoder),右半部分是解码器(Decoder),输入的数据经过神经网络降维到一个编码(code),接着又通过另外一个神经网络去解码得到一个与输入原数据一摸一样的生成数据,然后通过去比较这两个数据,最小化他们之间的差异来训练这个网络中解码器和编码器的参数。

Deepfakes需要训练两个自动编码器,第一个自动编码器只与需要被替换的人脸相关。训练得到编码器和解码器A。

第二个自动编码器只与用来替换的人脸相关,与第一个自动编码器共享同一个编码器,训练得到解码器B。

  • 使用模型转换原视频

在原视频中检测出需要替换的人脸,将这些图片输入到训练好的编码器中,用解码器B解码,然后替换回原视频中。

内容修改

内容结构和基于对象的分析开辟了人工智能协助实际内容开发的新途径。学习屏幕上角色的行为,走动,谈话以及所有可能的面部表情的细节,人工智能系统可以创建出虚拟的表演。华盛顿大学的研究人员创造了一个超现实的巴拉克·奥巴马发表的演讲,事实上他并没有给出过这样的演讲:

http://nationalpost.com/news/world/ai-creates-hyper-realistic-video-of-barack-obama-delivering-a-speech-he-never-gave。

这个演讲中的部分内容,是来自奥巴马的其它演讲,结果是奥巴马在西区演讲的视频,包含了许多他在其它场合发表的言论,甚至还有奥巴马模仿者的话语。

其基本流程如下图所示:

  • 基于训练好的循环卷积神经网络(Recurrent Neural Networks, RNN)将输入的音频转化为一段嘴型序列
  • 合成嘴部纹理
  • 增强纹理细节和牙齿
  • 将嘴型与真实视频中的脸部混合并且匹配头部动作

该技术引起了一些令人不安的可能性,但研究人员表示,目前为止使用这种技术发表的任何虚假言论都相对容易被发现,甚至可以使用相同的技术对其他视频进行逆向工程,以确定它们是否是假的。

人工智能在内容创造的领域还只是迈出了一小步。生产过程中仍然存在许多方面可以从人工智能获益。

决定创意

制造商使用神经网络来综合多种复杂因素,以确定哪种类型的内容值得生产。例如,如果你知道你的电视剧视频具有最高的浏览量,通常情况下,你可能倾向于制作更多的电视剧视频。但是,如果考虑到其他因素(如生产成本,人才成本,权利和许可,受众参与,社交传播,联合机会等),你可能会发现喜剧视频往往具有较高的投资回报率。人工智能是推动这些深度计算的引擎。

2016年3月日本广告公司MaCann Erickson推出了名为AI-CD ß的人工智能创意总监。驱动这个人工智能创意总监的机器学习算法的训练数据包括电视节目以及近十年日本电视节获奖作品的详细信息。通过数据挖掘,系统可以提取适合特定客户的广告创意和主题。

2016年9月,AI-CD ß与MaCannErickson创意总监Mitsuru Kuramoto进行了一场友谊赛,为一个薄荷糖品牌制作广告,广告最终由民意测验来评判。虽然最终AI-CD ß以46%:54%惜败Mitsuru Kuramoto。但是这个尝试显示了人工智能在广告制作上的前景。

简化编辑

使用传统的方法,基于数小时的原始镜头来制作纪录片,通过手动排序和捕获某素材的相关信息将耗费数周时间,更不用说汇总相关的片段进行编辑了。使用人工智能,可以通过两种方式消除大部分的时间:(1)通过面部,对象和文本识别自动捕获大量的元数据;(2)通过优化搜索,快速找到内容池中的关键帧。这样,当编辑需要特定帧的时候,可以使用人工智能更快地找到它。

优化存档

假设你在素材上花了很多钱,想从中获得最大的收益。人工智能可以通过强大的元数据捕获技术对现有内容进行索引,你会发现现有的存档内容可以更容易地重新调整以供将来使用。例如,在一个已经购买的素材包内找到相关的视频片段来补充一场直播可以在几分钟内完成而不是几个小时。目前Ooyala Flex与Microsoft Video Indexer在这一领域有密切的合作,希望使用这项技术帮助发行商克服传统方法繁琐的缺点。

总结

对于人工智能现在以及将来会给媒体生产带来的影响,Valossa首席执行官兼首席技术官Mika Rautiainen表示,不断变化的媒体形式以及对消费和创造的挑战意味着视频需要更快速地生成,并且通过多平台以不同的格式提供。“所有这些都需要创建,制作,交付和管理录制的视频材料的更高效的流程... AI可以得到有效的培训,以简化最耗时和重复的流程”。

参考文献:

[1] http://n.cztv.com/news/12780241.html

[2] https://github.com/joshua-wu/deepfakes_faceswap/

[3] https://www.youtube.com/watch?v=7XchCsYtYMQ

[4] https://sherlockliao.github.io/2017/06/24/vae/

[5] http://nationalpost.com/news/world/ai-creates-hyper-realistic-video-of-barack-obama-delivering-a-speech-he-never-gave

[6] http://www.mediaentertainmentinfo.com/2017/09/top-10-areas-artificial-intelligence-is-leading-automation-in-media-industry.html/

[7] https://www.techemergence.com/ai-in-movies-entertainment-visual-media/

https://www.sportsvideo.org/2017/12/01/ooyala-white-paper-how-al-is-transforming-media-production/

[8] https://www.ibc.org/tech-advances/artificial-intelligence-in-the-real-world/2562.article

https://www.ibc.org/tech-advances/the-future-is-artificial-ai-adoption-in-broadcast-and-media/2549.article?adredir=1

[9] https://www.ibc.org/tech-advances/ai-transforming-media-production-/2638.article

原文发布于微信公众号 - 媒矿工厂(media_tech)

原文发表时间:2018-02-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ATYUN订阅号

亚马逊AI基于播放持续时间预测用户的音乐品味

亚马逊的AI工程师开发了一种新颖的方式来学习用户的音乐品味,方法是将歌曲播放持续时间作为“隐式推荐系统”。机器学习科学家和研究的主要作者Bo Xiao,在印度海...

1082
来自专栏牛客网

Keep算法岗娱乐面面经

之前看到牛客有人发Keep内推贴,因为一直对Keep比较有好感于是马上内推了一波,笔试只a了1题居然进了面试,本来约的上周四,我说没时间可不可以周末,电话对面说...

1451
来自专栏算法channel

@all, 离2019年还有4.5个月,4个月前的今天送的那6本书,你们读透1本了?

3月的今天,我第一次在公众号内送了5本甄选的书和1个TensorFlow的斯坦福PPT完整教程。

1080
来自专栏新智元

【AI 原力觉醒】《纽约时报》两万字长文,深度剖析谷歌大脑简史

【新智元导读】《纽约时报》刊文,记者 Gideon Lewis-Kraus 深入谷歌大脑,从团队建立开始,阐述他们如何用神经网络改变谷歌翻译这一谷歌重要产品。文...

3266
来自专栏人工智能LeadAI

使用 R 语言从拉勾网看数据挖掘岗位现状

因为毕业后想从事数据挖掘相关的职业,但对该行业的需求不太了解,网上资料太多查看花时间且抓不住重点,所以爬取了拉勾网上 900 多条相关的岗位共计 30 万字的职...

2927
来自专栏PPV课数据科学社区

【学习】阿里面试经历及总结(数据研发、Java研发方向)

我投的岗位“软件研发工程师”。到了面试现场,选择了Java语言(有对应的面试官)。不过,后面进行了交叉面试,被推到了“数据研发”岗位。 一面: 首先,自我介绍。...

4307
来自专栏大数据挖掘DT机器学习

京东Star和阿里星,揭示互联网企业对算法&机器学习岗的要求

从2015年8月到2015年10月,花了3个月时间找工作,先后通过内推参加了美团、阿里蚂蚁金服、京东、腾讯、今日头条、Growing IO、微软这7个公司的面试...

6506
来自专栏量子位

脑子瓦特?记忆力受损?试试AI调控的闭环电击颞叶疗法

Root 编译整理 量子位 出品 | 公众号 QbitAI 发际线后退就算了。 发现自己连记忆力也开始下降? 你可能需要电电自己的脑子了。 2月6号,宾大研究团...

2627
来自专栏tkokof 的技术,小趣及杂念

音乐游戏&音频解析 ABC(上)

  现阶段的工作涉及到了部分音频解析的内容,广义来说便是数字信号处理(DSP),可惜本人并非专科出生,很多相关内容都是空白,从头看起也感觉颇为有些困楚,虽说时间...

992
来自专栏牛客网

视觉算法岗秋招总结分享——教你如何准备

2525

扫码关注云+社区