4:3,梅西回家了;2:1,C罗也回家了,这届世界杯真是激烈又精彩。
但对于无法前往现场的(伪)球迷们,只能屈身于手机、电视的平面看直播了吧?
在新技术应用一个接一个的今天,到底有没有更新、更技术的方式,重新定义一下看个球?
试想一下:如果可以通过AR设备,将赛况实时投到桌面上,并且随你移动,还能尽览不同视角、不同距离的全场景球况,该是多么过瘾的一种选择。
就像这样——
再如这样——
噫……这是把世界杯搬到了任意桌面了么?而且还能各个角度绕着球场看比赛——就算身在现场也做不到啊!
恭喜你,这种“上帝视角”,可能不久就能实现了。
就在最近,华盛顿大学、Google和Facebook的研究人员开发了一套桌面足球系统,能将世界杯视频重建,转换成动态3D视频。通过AR设备,可以看到渲染后的球员动作和场地效果。
拥有了这个系统,感觉宛如拥有了整个球场,这到底是怎么做到的?
桌面看球的大思路其实很简单。
只要充分利用球场部署的多角度相机,之后通过多视角几何技术,对场地和玩家进行三维重建,2D世界杯就升级为3D场景了。
因此,研究人员提出了这样的思路——
先收集Youtube上世界杯球赛视频,根据场地线来推断相机的位置等参数。
随后,提取视频中的边界线、球员姿势和运动轨迹,将球员和场地分割,方便下一步加工。
“质壁分离”后,对球员进行单独的渲染处理来实现立体效果。研究人员用视频数据训练深度神经网络模型,在球场上重建每个球员的景深图,为实现360度无死角看球打基础。
最后,如果你有AR设备……用AR设备或者3D查看器渲染一下,3D看球美美哒。
思路没错,但紧接着问题就来了:
想训练神经网络模型根据球员图像来估计他的景深图,最理想的数据集里,应该包含着一对对的球员照片vs.景深图。
这样的数据集上哪找?
研究人员想到了EA出品的FIFA系列游戏。截取FIFA游戏引擎与GPU之间的调用信息,不就能从视频游戏的框架中提取景深图了嘛。
机智。
现在数据完备,就差个能够预测景深的神经网络了。
研究人员选取了“沙漏网络模型”,用一连串残差模块,像一个个沙漏一样来处理输入,经过8个“沙漏模块”实施降低输入的分辨率、放大等步骤,输出的,就是我们所需要的景深图。
准备阶段完成后,研究人员开始重建3D场景。整个流程一气呵成,犹如进入了快餐店后厨——
大概分为以下几步:
一连串操作至此,3D合成大功告成。
研究人员将此模型的3D生成结果与原视频和不同方法合成的结果进行了对比。
渲染后得到最后的效果图:
毫无疑问,这种方法可以得到更精确和完整的深度估计,重建的效果也最好。
虽然场景不错,但这项技术目前并不完善,还不能让你随心畅看。
Bug 其实很明显,刚在观看效果的时候,各位有没有看见足球?
——冇。
没错,目前这套系统最大的问题就是还没有对足球进行处理,球的轨迹无法渲染出来,场上一票球员如同在踢“空气球”。
此外,系统对球员及守门员的(位置)把控不够准确,被遮挡的球员显示不完整。这就导致球员有时球员会突然消失,然后突然出现,犹如习得传送大法。
在论文中,研究人员表示,目前这项技术还在不断改进和升级中,下一部的计划是:
这项研究的论文Soccer on Your Tabletop发表在CVPR 2018上,作者有四,均属于华盛顿大学(张亚勤母校)的GRAIL lab实验室,分别为Konstantinos Rematas、Ira Kemelmacher-Shlizerman、Brian Curless和Steve Seitz.
如果觉得这项研究和你胃口,可移步传送门深入挖掘。
论文地址:
http://grail.cs.washington.edu/projects/soccer/soccer_on_your_tabletop.pdf
代码地址:
https://github.com/krematas/soccerontable
最后,效果视频长这样: