前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >利用人工智能提升足球直播效果

利用人工智能提升足球直播效果

作者头像
用户1324186
发布2018-10-25 15:47:59
2.7K2
发布2018-10-25 15:47:59
举报
文章被收录于专栏:媒矿工厂媒矿工厂

摘要:

人工智能技术代表着未来无限的可能性,已经在很多领域带来巨大的冲击。在足球直播这一领域,版权方需要提供更多更优质的内容以应对日益增长的多元化需求,因此急需提高运营效率的新方式。

具有合适的机器学习引擎的人工智能已经可以模仿一些人类的创造性行为,克服了自动化的一些局限性,能够高效高速处理高级复杂的任务。本文参考自N. Déal和J. Vounckx于IBC2018刊登的文章:

"AI FOR BETTER STORYTELLING IN LIVE FOOTBALL"

选取了一些具体的应用,如辅助取景,机位选择,相机标定以及机器相机自动转向等,对人工智能辅助体育直播的潜在效用进行了介绍。

简介

现代科技养刁了球迷们的胃口,让他们在观赏热衷的足球赛事时开始追求身临其境的沉浸感,能够沉浸在比赛中,比以往任何时候都接近球员。联赛,球队与个人体育赛事也意识到了一点,力求用最新科技满足球迷们的需求。

然而,这个需求需要在预算紧张的情况下实现——广播电视公司希望在有更高的节目制作效率的同时,为观众提供更好的视听体验,在这个背景之下,人工智能逐步走进了直播行业。人工智能能够模拟人类操作员具有创造力的行为,为电视直播打开了一扇新的大门。

足球场上的AI

人工智能的吸引力

近年来随着神经网络技术——尤其是深层神经网络实时执行能力的进步,人工智能已经打开了一扇带有创造力的门。它模仿了人类对艺术的感知,并拥有了对不可预见事件的预测能力,对生活生产中的许多问题能有很好的处理。

与传统的编程方法相比,神经网络技术并不直接模拟过程运算解决问题,而是通过学习大量的例子对一个问题进行判断。人类亦是如此,人类通过各种事例进行学习,得到新的经验再反过来改变自己之后的行为,在不断的试错中提高,直至成为这个问题上的专家。

在如今的早期阶段,我们难以预测人工智能会如何对未来赛事直播造成影响,但人类的监督必将贯穿整个发展流程,事实上,人类操作者的创造力与灵活性仍将是现场制作成功的关键,机器学习过程将始终需要人类的输入。

因此,我们对未来如此设想:人工智能可以作为一个促成者(enabler)或者助手,来完成现场制作中的某些任务,并提供更智能的工作流程,让制作团队有更多时间来完成更有创意的编排。

人工智能作为虚拟生产助理

没有人的参与,一场赛事转播无法引人入胜,毕竟整场转播需要人的创造力与情商参与才能将精彩呈现给观众。机器与人类不同的是,它们不会感到无聊,也不需要休息来保持效率。在某些情况下,人类在执行任务时可能会更慢、更无规律,而训练好的人工智能可以持续高效、可靠而又稳定地执行多项任务,这一点人类时常无法做到。这便是让人工智能参与一场直播的意义所在。

论文作者提出将人工智能作为内置虚拟生产助手的概念。操作者和导演可以利用一系列实时引擎(分析引擎、A/V(视频与音频)处理引擎和内容生成引擎)来辅助执行任务。

分析引擎会实时分析在制作过程中生成的许多音频、视频以及其他数据馈送(data feed),也会分析来自其他渠道(如社交媒体或档案)的数据。分析结果是一组元数据(metadata),包含发生的事件(如红牌,进球等),视频中物体的指示,或者图像中动作的热度的指示。这种元数据会在匹配期间自动生成日志信息。这些元数据既可以存储起来供以后处理,也可以供给其他引擎实时使用。

A/V处理引擎可利用元数据创建可用于制作的音频和视频材料。举一个简单的例子,它可以在视频中插入图像信息(如展示失误,显示球员的生物特征数据,与绘制越位线等等),生成的视听内容可用于后续的剪辑播出。

内容生成引擎则会实时分析元数据,并自动生成内容。当制作者希望自动高亮部分内容,或者自动裁剪图像时,内容生成引擎都会通过指令来生成视听内容。这些实际创建视听馈送的指令将由A/V处理引擎处理。

图 1

助理系统有两种模式。第一种是自动模式,操作员直接收到人工智能提议的最佳内容(如提醒回放或控制摄像机转向等)。这种模式大量使用了内容生成引擎,让导演们对复杂的制作过程能有更快的反应,毕竟人工智能已经将它所认为最好的内容直接给出。最极端的例子就是整场赛事转播全自动制作,尽管这违背了人必须参与的原则,但全自动制作有助于冷门比赛的播出——例如青年赛与地方赛——传统方法下预算成本会太高,并不可行。

第二种是操作者控制模式,人工智能通过自然语音处理器收到操作者和导演提出的要求,比如“将摄像机视角转向进球”、“给这段画面一个慢动作”或“回放最后一次进球”等。然后,这些请求由自然语音处理器转换为每个人工智能引擎的API指令,然后生成所需的视听输出。

预期的应用领域

用于实时数据分析与部分任务自动化的人工智能:

  • 记录与索引
  • 相机标定
  • 镜头追踪球员与目标
  • 在原有资料中智能搜索(球员的)资料,在节目放送中整合
  • 解释与预测比赛局势

为视频片段按需求放送做先期准备的人工智能:

  • 自动确定摄像机机位与拍摄角度,例如“给我一个梅西的视角”
  • 对部分视频片段自动选择重放与强调,例如“给我回放上一次的失误”

为高质量视频输出做准备的人工智能:

  • 在正确的位置上覆盖指示图像,完成对球场的标定
  • 为普通相机拍摄的影像生成慢动作镜头
  • 图像着色
  • 通过原图与插值图的重组形成额外的图像
  • 机器人摄影机的自动转向

除了上述应用领域之外,人工智能制作助理系统的整合也会使足球直播受益。

  • 人工智能剪辑与重播镜头:

即时回放是当今赛事转播中很普遍的一个方法,但是即时回放却存在着一个问题——回放播出时切掉直播流,影响收视效果。为了解决这个问题,人工智能系统可以自动分屏,同时将直播流与回放片段推送给观众,观众可以自己选择想观看的部分。直播视频将会一直保留在屏幕,方便观众在精彩片段再次出现的时候切换回直播。

图 2

图2是一个iPad观看球赛的演示,屏幕下方的分屏显示回放,但用户也可以在回放与直播之间自由切换,视频也会随着屏幕自动匹配。

  • 人工智能帮助使用固定摄像机进行直播:

有了人工智能,赛事场地中大量移动高清摄像头可以被固定的8K摄像头所取代,这些摄像头被战略性地放置在整个足球场各个位置,所需的设备大大减少。训练好的人工智能能检测并提取球员的动作,将相机产生的数据流传输到数据中心以便直播过程中实时处理、储存或使用。

人工智能辅助转播

辅助取景Assisted framing

辅助取景利用人工智能,将高清视频压缩到更小的长宽比,以适应智能手机或者其他屏幕的需求。毕竟在社交媒体发文或者传统媒体发布新闻的视频规格都会有不同。

传统的方法如中心对齐裁剪或目标检测都有其局限性——原始图像的中间很少出现动作,如果采用中心对齐裁剪,大部分动作可能丢失;目标检测似乎更好,但是会出现足球被球员挡住,或有其他物体被误认为球的情况,更何况,足球并不总是图像中最有趣的部分,其他的部分比如球员,也许更加吸引观众的眼球。

人工智能可以提取图像中的关键元素,在人类指出比赛过程中的最佳图像中心之后,人工智能会从中学习,并且将其更新到网络之中。

图 3

技术层面上来说,辅助取景基于一系列实时引擎(见图表3)。第一层引擎基于能够识别视频中不同图像动作焦点的神经网络,它会返回视频序列中各个图像观众最可能感兴趣的区域。这些区域由一组值来标识,包括它所在的当前图像(第i张图)与其对应的位置

。这些值传到第二层实时引擎,第二层引擎对其进行时域滤波。时域滤波确保感兴趣区域能够平滑变化,防止输出的视频产生画面跳动。为了实现过滤,实时引擎利用前时序图像中的观众感兴趣的区域,也就是

,进行处理。最后,实时视频处理引擎从原始图像中将所需的观众最可能感兴趣的区域剪辑出来,将新的序列转发到剪辑制作的后续阶段。

图 4

最终的剪辑结果如图4。

辅助相机选择

任何一场重要球赛,都会安排多机位拍摄以确保将所有的动作拍摄下来,后续过程中导演再决定将哪一个角度的镜头呈现在电视上(如图5)。辅助相机选择中,人工智能会自行选择它认为最好的或最合适的相机角度。为了评价人工智能的效果,研究者安排人类给同一比赛中的三个不同剪辑打分——一个剪辑是人工剪辑,一个是通过人工智能的剪辑,还有一个则是半随机生成的剪辑。结果表明,除了在特定的复杂场景之外,机器算法剪辑的水平与人类导演的水平基本相同。

图 5

辅助相机标定camera calibration

人工智能可以根据视频图像对足球场地实时进行相机标定。它会计算视频中图像与球场布局之间的变换,可以先在矩形2D视图中绘制场地线条与其他的画面元素,再以正确的视角将这些线条和元素投射到真实的图像中。

图 6

利用神经网络,我们可以计算出从场内摄像机中看到的2D球场的相貌,并将2D的视角与实际图像相关联,其他的元素可以自动加入其中。这最初应用在越位线的标定上。辅助系统可以向操作者显示球员越位的确切位置,并将其呈现在相机的视频输出中。

自动相机标定是基于对相机拍摄图像的分析。几个人工智能引擎相互串联之后,通过识别足球场上的参照标记,将真实的摄像映射到数学模型上。经过映射,我们可以提取到识别相机标定的参数,该参数也标明了(带有失真和光学透视的)相机图像与真实世界之间的空间转换。基于这些标定参数,人工智能通过两者之间的坐标转换,将需要添加的元素(如前述的越位线)附加到视频图像上。

辅助机器摄像转向

机器学习的方法为人工智能赋予了预测能力,人工智能可以预测球员的动作,并及时移动摄像头方向,以便拍到最精彩的画面。下图显示了系统从能覆盖整个球场的广角摄像机分析场景检测相关信息的方法。人工智能模块利用探查到的信息,发布P/T/Z命令以控制所有的机器摄像机,将摄像机转向至效果更好的方向。

图 7

自动机器摄像机转向依靠几个人工智能引擎实现。第一部分的组件会在制作开始时或相机参考位置变动时自动校正相机,使得各个摄像机的位置与由相机拍摄图像中的位置关联起来。校准与标定是通过对相机图像分析完成的。

第二部分的组件负责对各个机器摄像机进行实时操控。人工智能引擎决定每个相机应该拍摄球场哪个区域,其输入是覆盖全场的广角摄像机的图像。通过前一过程的标定各个机位已经确定,因此人工智能通过判断直接发出具体的P/T/Z指令,控制机器摄像机的转向。机器摄像机拍摄的图像将会用常规传统的方法处理,而不用人工智能引擎再处理。

覆盖全场的摄像机与机器摄像机之间的时延是一个关键问题,经过时延,机器摄像机才会转向人工智能引擎所指示的最佳拍摄视角。如果延迟过高,机器摄像机难以实现动作跟踪,也难以拍摄到理想的位置。研究人员投入了大量精力,优化数据生成与数据传输速度,也改良了算法,才起到较好的效果。

辅助慢镜头

赛事转播中,慢动作回放很有看点,它能让观众更好地欣赏运动员的技巧,帮助观众更好地理解球场上发生的情况。通过能拍摄高清画质慢动作的超运动摄像机super motion camera的拍摄画面不仅引人入胜,也使得转播过程更加精彩。可由于超级运动摄像机的昂贵,除了顶级赛事之外的大多数赛事只能望尘莫及。

人工智能让从普通摄像机的视频中获取高清慢动作图像成为了可能。通过训练神经网络以对视频插值,将虚拟的中间帧插入到原有的视频序列中,就可以获得更高的帧率。

图 8

上图展示了人工智能生成的慢动作与通过重复帧方式创建的慢动作的比较。通过插帧创建的慢动作视频序列明显更流畅,更连贯。

这种方法会让没有财力部署超级运动摄像机的小规模制作受益。此外,它还可以创建帧率更高(ultra motion, hyper motion)的视频。它还可以从现有的影片上创造这样的慢镜头,并将它们整合到直播中,为直播带来更好的体验。

结语

在广播电视行业,人工智能并不是为了用机器取代人工作,而是帮助人类更快更高效地完成工作。基于深度学习的方法,人工智能能自动化完成部分工作,能分析视频,能实时完成诸如我们正文所说的辅助取景,辅助相机选择等工作以提供素材,这些任务将会对从业者的工作产生很大帮助。我们期待未来人工智能能被用于赛事转播之中,让从业者能更好应对日益复杂的直播工作,帮助他们创造更好的节目制作——也让观众更加忠实投入到观看直播之中。

参考文献

1. Grotticelli M., April 2018, “At NAB 2018 artificial intelligence touted as super-charged video assistant”, thebroadcastbridge.com.

2. Magera F., Vounckx J., April 2018, “How AI will take productivity in the broadcast industry to the next level”, NAB 2018 technical paper.

3. Hastie T., Tibshirani R., Friedman J., 2009, “Overview of Supervised Learning”. In: The Elements of Statistical Learning. Springer Series in Statistics. Springer, New York, NY

4. Krizhevsky A., 2009, “Learning Multiple Layers of Features from Tiny Images”

5. Sacchelli D., February 2018, “How AI will change the broadcasting and entertainment landscape”, itproportal.com

6. Clevinger D., September 2017, “How AI will disrupt sports entertainment networks”, venturebeat.com

7. Alamares M., October 2017. “AI will soon bring huge changes to live video production”, streamingmedia.com

8. Hartley R., Zisserman A., 2003. “Multiple View Geometry in Computer Vision”

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-10-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 媒矿工厂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档