基于视频内容的 VR 片源识别算法研究

原创

赵永飞

修改于 2017-08-21 10:01:58

5.1K7

修改于 2017-08-21 10:01:58

文章被收录于专栏：赵永飞的专栏

导语

随着虚拟现实技术的发展，VR视频板块也越来越多的涌现在各大视频网站，比如爱奇艺，youtube，优酷，腾讯视频等。随着专区版块的建立，用户自主上传的VR视频内容也越来越多，目前都是编辑工作人员审核进行VR视频和普通视频分类，如何设计算法实现自动分类VR视频和普通视频，提高VR片源审核效率显得尤为重要。

1.VR视频及播放原理

对于VR视频，大部分用户的概念更多的是在VR眼镜上，通过手机上特定的VR app眼镜播放模式来播放视频，然后将手机插入VR眼镜进行实际交互观看体验，如下图所示：

图：用户通过VR眼镜观看VR视频

对于后台视频数据存储库来说，实际上VR视频的视频数据保存格式和普通视频无差异，都是MP4等其他常见的格式。VR视频现在主要有3种类型比较广泛使用，分别是3D 360度，2D 360度，3D 180度。如下图所示：

图：3D 360度VR视频普通播放模式播放

图：2D 360度VR视频普通播放模式播放

图：3D 180度VR视频普通播放模式播放

与普通视频的区别在于VR视频需要专门的VR播放器插件将视频画面渲染到球面上，然后将用户观看视角置于球体中央，用户正面所对球体的局部画面即为用户当前所看到的全景的局部画面，当用户转动视角时就可以360度浏览当前场景的所有画面。全景360度交互浏览及VR眼镜上的播放模式也就是此原理。

图：VR视频播放原理

1.VR视频片源识别算法

由于VR视频和普通视频格式一样，网站或者应用里面的后台会字段标记为VR视频。不过对于用户在VR板块上传的视频，我们后台数据库服务器要鉴定审核其是否为VR视频，提高效率，只能基于视频本身的画面内容识别。

2.1VR相关基础知识

要想从VR视频本身画面内容角度识别出VR视频，就必须先了解VR视频是如何产生的，及其数据的保存方式。这里给出腾讯视频对于VR直播这块的整体流程，从数据采集、全景拼接到视频处理到编码推流的全套流程，如下图所示：

其中，全景视频是通过全景拼接技术生成，如下图所示：

全景视频的数据保存形式为Equirectangular投影方式，如果你带上一副VR眼镜进行观看，就可以在一定程度上体验到被世界环抱的感觉。这种投影方式的特点是水平视角的图像尺寸可以得到很好的保持，而垂直视角上，尤其是接近两极的时候会发生无限的尺寸拉伸。可以理解为水平方向（经度）360°和垂直方向（纬度）180°的数据都可以通过Equirectangular投影方式保存下来。

图：Equirectangular投影方式保存全景数据

越是靠近顶端和底部图片的扭曲就越严重，VR头盔和应用软件的意义也就在于将这些明显变形的画面还原为全视角的内容，进而让使用者有一种身临其境的包围感。

2.2视频片源识别算法

通过VR基础知识我们知道，与普通视频的差别在于，VR视频画面是Equirectangular投影方式保存的球体模型数据。我们算法核心思想就是将一帧视频画面反投影到球体上，变换得到局部特定角度（对应全景视频的边界，如图红框所示）的正常画面，对画面内容进行相似度计算，得到一个表征相似度的二维向量，最后用SVM模型进行分类。

整体算法流程如下：