前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >AI如何用于现场直播场景

AI如何用于现场直播场景

作者头像
用户1324186
发布2018-10-25 15:46:42
2K0
发布2018-10-25 15:46:42
举报
文章被收录于专栏:媒矿工厂媒矿工厂媒矿工厂

摘要:

与许多产业一样,通过软件和算法辅助,电视与视频制作很可能被人工智能和机器学习所改造,而当前这些制作任务都是由人来执行。随着现场直播报道涉及的范围越来越广,而相关专业人士的数量稀缺,基于AI的影视制作技术应运而生。本文参考IBC2018荷兰广播电视展览会上最佳技术论文(AI in production: video analysis and machine learning for expanded live events coverage, Craig Wright et. al),该论文由BBC R&D完成,讨论了一个名为“Ed”的项目,以求用最少的工作人员创建近乎实时的内容。其中的一个例子是,“Ed”利用一组三架无人4K相机,生成了许多正确构图的高清图像,并可从中剪接。

最近BBC分析和研究了对使用视觉分析技术和其他技术的AI算法所具有的潜在产业利益,本文对其进行了翻译和介绍。

与广播从业人员和其他内容制作者相比,人工智能(AI)和机器学习(ML)具有极大提高事件报道的范围和规模的潜在应用价值。目前尚不清楚这些技术的时间尺度(timescale)和影响是什么,或者它们将在多大程度上协助现有的专业人员这一类角色而不是仅仅将部分技术自动化。

我们最近的工作是简化覆盖阶段性事件的过程,例如使用新的软件工具和新的艺术工作流程的单口喜剧或小组专题节目:BBC原型Primer和SOMA [1,2]使用网络技术和我们的IP Studio实施 AMWA NMOS标准[3]允许单个操作人员“几乎实时”操控。我们还概述了我们使用基于规则的AI方法开发Ed的经验。同时讨论了如何评估该类系统的的性能所面对的挑战,以及使用机器学习算法改善系统性能的前景。

视频直播很难覆盖事件的全部景貌

使用常规的户外广播(Outside Broadcast,以下简称OBs)技术对文化和体育类重大事件进行视频报道通常是受到诸多限制的,即使不要求是实况直播,OBs仍然需要大量的设备资源和人力资源。从视频角度来说,典型的OBs要求多个相机和多个摄像师,以及专用的图片/视频制作区域,还需要视频剪辑,导演以及其他工作人员。这种方法缺乏足够的可测量性和复杂度。最近,产业界开始开发这种工作流程来满足快速增长的视频录制需求,讲可以大大有助于同类事件的更加综合性的报道。早在2015到2016年间,爱丁堡边缘艺术节(Edinburgh Fringe),BBC R&D就在多个难以覆盖拍摄的会场(venues)用到了静态超高清UHD相机。超高清分辨率意味着每一个这些静态的宽镜头都能被实时地以多种方式剪裁,从而产生多个高清HD“虚拟”镜头。这些视频最后都由一个专业人员使用单个网页应用Primer进行剪辑创作和排序,从而保证操作人员创造出具有较好质量的多相机视频片段。从最终表现上来看,这在此前几乎是不可能实现的。我们同时基于IP Studio和Raspberry Pi平台开发了一个高度紧凑、低成本的录像设备以用于这些场景。

ED—基于规则的自动化报道AI系统

Ed专为捕获和编辑实时事件而构建。跟SOMA一样,Ed接受一个或多个视频流输入,每一个输入都以静态超高清相机录制,每一个宽镜头都安置在舞台的不同位置。然而,SOMA需要一个操作人员来控制录像过程,然后在这些不同位置的镜头间来回切换,最终形成最终的输出。总的来说,Ed系统自动执行镜头取景、片段排列和选择。Ed目前已经可以实现对特定表演类型更大范围的报道。

图1 镜头取景指南

图2 视频拍摄测序和选择指南

特征提取

Ed软件使用面部检测和跟踪技术、面部特征点和姿态估计以及视觉说话者检测来从视频流提取多个特征,这样可以检测每一帧里面人所处的位置、面朝方向、他们何时发言等。由于我们将面部检测和说话人检测方法调节到最小的假正类误差,代价是增加了假负类误差,因此漏检的概率高于误检概率。

取景

面部检测和相应的姿态估计用于选择候选广角裁剪(WS)、中间部分裁剪(MS)和闭合裁剪,每一个裁剪的部分一般是一个、两个或者三个候选人的人脸组合。裁剪下来的被组合成帧,从而可以达到足够多的头部、面部视角,并遵循第三条规则。图3的有半部分显示了有3个候选人的裁剪图。

图3(左图)面部检测框(绿色),面部特征点(蓝色),头部姿态映射(红色);(右图)带有3个候选裁剪区域的相机视角:两个中间近距离镜头(绿色和蓝色),一个中间镜头(红色)

拍摄排序

拍摄排序即定义镜头何时切换的过程。剪辑片段排列节奏是片段时长最小值最大值的函数。任一片段都应该满足这一条件,通常保证说话人在镜头内是基本要求,Ed系统内镜头排列方法就是调控每一个镜头切换都是发生在人说话开始或者结束发言的时候。语言的检测周期被用于该过程的参考。

假设最小和最大片段时长为l_min, l_max,线性间距为(l_min + l_max)/2,最大变化的调整为(l_max – l_min)/4,如图4展示

图4 发言,在允许范围内有移动的线性序列,12秒为一个周期,最短与最长片段时长分别为2秒和4秒

镜头选择

通常有三个指标(1)要求说话人在镜头内(2)允许偶尔的将镜头切换至现场反应镜头(3)偶尔的切换为特定的镜头。现场直播的控制台布局中,主持人和参与嘉宾一旦坐定通常都不会再移动位置。对于一个给定视频片段的帧截取是否合适需要考虑以下四个方面:

  • 截取范围内声音源的数量
  • 截取范围内的人物数量
  • 截取类型(近距、中等、广角)
  • 该种截取方式用的频率怎么样

图5 候选裁剪区域切换示例

当检测到有人发言时,一般使用近距离镜头的剪裁,这时人物变少,说话人也可以获得更多的关注度,相反的,如果没有检测到语音,那么会选择相对人数更多的镜头视角。同时也会选择最近没有切换过的镜头视角。

评价与改进动机

Ed的性能以及系统质量评价可以通过以下方式来评价完成:

  1. Ed制作的镜头框架,排序和选择决策与人类程序制作者用同样的材料制作的决策相比如何?
  2. 观众的观看体验质量如何?

邀请四位职业电影制片人分别同时录制现场节目,Ed也生成了等同的录制镜头,然后,邀请每一个观众进行对比评价。

图6 视频录制场景

结果和影响

对于同一个画面,由观众在被提供的两张裁剪方案中选择他们认为更好的一张,以此形成对AI系统更多关于画面截取的意见。

指导规则一:物体边缘需要清晰

图7—Ed的结果(左)和专业人士的结果(右,被认为更好)

观众对右边由专业人士的作品具有更高的评价,主要原因在于对画面中物体(比如植物、标记或者马克杯等等)更加要求全部部分位于镜头以内,由帧边界裁减掉的物体边界更容易让人分散注意力,并且看起来不专业。如上图所示,左边由Ed生成的一帧图片右下方含有一个标记的四分之一,这让人感觉很不好。

指导规则二:对部分可见的人,边缘应该清晰

图8 Ed的结果(左)和专业人士的结果(右,被认为更好)

跟指导规则一相似的,观众不喜欢那些边缘含有被截断的人脸、身体或者嘴唇等的镜头,这容易让人把注意力从视频的焦点(比如圆桌嘉宾之间的谈话),观众在这一方面再次强调了面孔在镜头内和部分在镜头内的巨大差别。

指导规则三:避免单次镜头的过度放大

图9 Ed的结果(左)和专业人士的结果(右,被认为更好)

被认为更好的镜头如上方示例,由Ed自动裁剪的结果比由人类专业人士产生的结果要差,其中一位参与者说“看到头部更多信息更好”,正如图右半部分的图所示。整体上来看,很多参与者认为屏幕上面部占比过多有点不太“礼貌”,“整个屏幕都是人脸看起来真的很怪”,其中一位参与者说。

指导规则四:避免将头部的上半部分剪掉

图10 Ed的结果(左)和专业人士的结果(右,被认为更好)

有参与者戏谑称“为何不把他的头部剪掉呢?”。观众更喜欢一个镜头内有整张人脸,同时头部周围的背景相对少一点,如图10右图所示。观众也表示剪掉一部分头部让人不舒服。

指导规则五:避免(或最小化)空白区域

图11 Ed的结果(左)和专业人士的结果(右,被认为更好)

观众表示并不喜欢含有很多空白黑色区域的块儿,如图11的左边。实际上,给Ed添加一个规则,即最小化这样的空间意味着选择一帧可以最小化纯色的颜色块,像紫色的桌布,或者黑色的背景。

结论

我们正在探索新的评价和改善智能系统剪辑视频的方法,这类方法主要以人的评价为中心。值得注意的是:自动化系统评价这类的关键问题可能不能永远也不能完全比拟人类专业人员那种主观质量,这类质量评价的关键问题就是:算法什么时候对观众或者对一个特定的直播事件来说是足够好的?同时我们如何可以判断我们的算法已经达到要求,并且不需要再改进了呢?前期工作表明,基于整体体验质量(QoE)方法的主观观察者评估可以表征视频的相对影响,即使技术质量存在很大差异。

参考资料

1. Campbell, R. et al., 2015. Nearly Live Production. https://www.bbc.co.uk/rd/projects/nearlylive-production

2. Winter, D., 2017. Building a Live Television Mixing Application for the Browser. https://www.bbc.co.uk/rd/blog/2017-05-video-mixing-application-browser

3. Brightwell, P. et al., 2012. IP Studio. https://www.bbc.co.uk/rd/projects/ip-studio

4. https://getmevo.com/

5. http://www.datavideo.com/product/KMU-100

6. https://www.suitcasetv.com/live-event-mixing/iphrame-flyaway/

7. Evans, M., Kerlin, L., Larner, O., Campbell, R., 2018. Feels Like Being There: Viewers Describe the Quality of Experience of Festival Video Using Their Own Words. Proceedings of ACM CHI Extended Abstracts (CHI '18 EA), https://doi.org/10.1145/3170427.3188507

8. Fang H., Zhang M., 2017. Creatism: A deep-learning photographer capable of creating professional work, https://arxiv.org/abs/1707.03491

9. Theis, L., Korshunova, I., Tejani, A., Huszár, F., 2018. Faster gaze prediction with dense networks and Fisher pruning

10. http://www.pixellot.tv/

11. http://automatic.tv/

12. https://www.hawkeyeinnovations.com/

13. Hinton, G.E., Osindero, S., Teh, Y-W. 2006. A fast learning algorithm for deep belief nets. Neural Computation 18, pp 1527-1554

14. Lino, C., Ronfard, R., Galvane, Q., Gleicher, M., 2014. How Do We Evaluate the Quality of Computational Editing Systems? AAAI Workshop on Intelligent Cinematography and Editing, Québec, Canada. AAAI, pp.35-39

15. Smith, T.J, Henderson, J.M., 2008. Edit Blindness: The relationship between attention and global change blindness in dynamic scenes. Journal of Eye Movement Research vol. 2, no. 2, http://dx.doi.org/10.16910/jemr.2.2.6

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-10-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 媒矿工厂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云直播
云直播(Cloud Streaming Services,CSS)为您提供极速、稳定、专业的云端直播处理服务,根据业务的不同直播场景需求,云直播提供了标准直播、快直播、云导播台三种服务,分别针对大规模实时观看、超低延时直播、便捷云端导播的场景,配合腾讯云视立方·直播 SDK,为您提供一站式的音视频直播解决方案。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档