基于视频内容的 VR 片源识别算法研究

导语

随着虚拟现实技术的发展,VR视频板块也越来越多的涌现在各大视频网站,比如爱奇艺,youtube,优酷,腾讯视频等。随着专区版块的建立,用户自主上传的VR视频内容也越来越多,目前都是编辑工作人员审核进行VR视频和普通视频分类,如何设计算法实现自动分类VR视频和普通视频,提高VR片源审核效率显得尤为重要。

1.VR视频及播放原理

对于VR视频,大部分用户的概念更多的是在VR眼镜上,通过手机上特定的VR app眼镜播放模式来播放视频,然后将手机插入VR眼镜进行实际交互观看体验,如下图所示:

图:用户通过VR眼镜观看VR视频

对于后台视频数据存储库来说,实际上VR视频的视频数据保存格式和普通视频无差异,都是MP4等其他常见的格式。VR视频现在主要有3种类型比较广泛使用,分别是3D 360度,2D 360度,3D 180度。如下图所示:

图:3D 360度VR视频普通播放模式播放

图:2D 360度VR视频普通播放模式播放

图:3D 180度VR视频普通播放模式播放

与普通视频的区别在于VR视频需要专门的VR播放器插件将视频画面渲染到球面上,然后将用户观看视角置于球体中央,用户正面所对球体的局部画面即为用户当前所看到的全景的局部画面,当用户转动视角时就可以360度浏览当前场景的所有画面。全景360度交互浏览及VR眼镜上的播放模式也就是此原理。

图:VR视频播放原理

1.VR视频片源识别算法

由于VR视频和普通视频格式一样,网站或者应用里面的后台会字段标记为VR视频。不过对于用户在VR板块上传的视频,我们后台数据库服务器要鉴定审核其是否为VR视频,提高效率,只能基于视频本身的画面内容识别。

2.1VR相关基础知识

要想从VR视频本身画面内容角度识别出VR视频,就必须先了解VR视频是如何产生的,及其数据的保存方式。这里给出腾讯视频对于VR直播这块的整体流程,从数据采集、全景拼接到视频处理到编码推流的全套流程,如下图所示:

其中,全景视频是通过全景拼接技术生成,如下图所示:

全景视频的数据保存形式为Equirectangular投影方式,如果你带上一副VR眼镜进行观看,就可以在一定程度上体验到被世界环抱的感觉。这种投影方式的特点是水平视角的图像尺寸可以得到很好的保持,而垂直视角上,尤其是接近两极的时候会发生无限的尺寸拉伸。可以理解为水平方向(经度)360°和垂直方向(纬度)180°的数据都可以通过Equirectangular投影方式保存下来。

图:Equirectangular投影方式保存全景数据

越是靠近顶端和底部图片的扭曲就越严重,VR头盔和应用软件的意义也就在于将这些明显变形的画面还原为全视角的内容,进而让使用者有一种身临其境的包围感。

2.2视频片源识别算法

通过VR基础知识我们知道,与普通视频的差别在于,VR视频画面是Equirectangular投影方式保存的球体模型数据。我们算法核心思想就是将一帧视频画面反投影到球体上,变换得到局部特定角度(对应全景视频的边界,如图红框所示)的正常画面,对画面内容进行相似度计算,得到一个表征相似度的二维向量,最后用SVM模型进行分类。

整体算法流程如下:

具体过程如下:

1.原始VR视频的一帧全景画面

2.全景画面投射到球面上,变换得到固定的9个视角画面,分别如下:

3.对每个视角画面进行相似度计算,得到表征相似度的二维向量

4.构建SVM分类器

得到9个普通视角的相似度二维向量取均值,构成最终的表征VR特性的二维向量。为了构建SVM分类器,我们取5000张VR视频画面,5000张普通视频画面,分别求取对应的VR特性的二维向量作为训练数据进行SVM模型分类训练,得到最终的分类模型。

5.加载SVM分类模型进行VR片源识别

对于一帧视频画面,求取其对应的VR特性的二维向量,然后送入SVM分类器进行分类,判断其是否是VR视频对应的画面。为了更准确的判断一个视频是否是VR片源,我们这里采用等间隔选取视频中的2n+1个关键帧画面,进行上述分类操作,若其中有n+1画面类别判断为VR视频画面,则判定该视频为VR片源。

注意:本文提出的算法是针对360度VR视频片源的识别,对于180度VR的识别算法并不适用。对于测试数据算法的准确率99%,有待后续上线应用测试。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

赵永飞的专栏

1 篇文章1 人订阅

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏刘笑江的专栏

AI 精彩视频剪辑:战术竞技类游戏直播

2084
来自专栏华章科技

什么是数据分析的漏斗模型?

很早之前就知道漏斗模型,但没有做更多的了解和运用,后来对漏斗模型的了解稍加深入之后,觉得它不仅仅是一个模型,更是一种可以普遍适用的方法论,或者说是一种思维方式。

664
来自专栏MixLab科技+设计实验室

让机器预测平面设计作品的视觉焦点

这是一篇论文的解读,原文标题: Learning Visual Importance for Graphic Designs and Data Visualiz...

2765
来自专栏量子位

想让照片里的美女“回头”?清华MIT谷歌用AI帮你实现了

设计师们总是接到这种神奇的需求,但是受限于素材和工具的“想象力”,设计师无法凭空推理出背影女子的正脸是美女还是恐龙,这种需求根本无法达成。

824
来自专栏张叔叔讲互联网

浙江省初中信息技术七年级(下)-张叔叔划重点

上一篇文章得到了大家的认可,张叔叔坚持写下去的动力更加充足了!今天讲一下浙江省初中信息技术七年级下,再次声明哈,是浙江教育出版社出版的,读书差可以,如果连自己读...

1001
来自专栏罗鑫骥的专栏

个性化推荐系统从0到1

在互联网信息爆炸式增长的当今,通过传统人工筛选运营方式提供服务时代已然过去,本文作者结合目前手机QQ浏览器软件应用App分发业务发展需求,历时半年多时间,从无到...

3K1
来自专栏视频咖

透过镜头看杯酒人生

第一次认识李诞是在吐槽大会,第二次看到李诞是在奇葩说,第三次是在腾讯视频新推出的节目《奇遇人生》中重新认识他。他在微博中发的开心点,人间不值得总会被奇葩说的辩...

212
来自专栏社区的朋友们

《 NEXT 技术快报》:图形篇(上)

每年暑期都是各路顶会扎堆,今年也不例外,SIGGRAPH,CVPR,ICML这三个我们一直关注的领域顶会相继召开,本期“NEXT技术快报”将重点关注这三大顶会的...

4460
来自专栏数据派THU

【独家】一文读懂数据可视化

前言 数据可视化,是指将相对晦涩的的数据通过可视的、交互的方式进行展示,从而形象、直观地表达数据蕴含的信息和规律。 早期的数据可视化作为咨询机构、金融企业的专业...

2389
来自专栏量子位

AI说:你的书法有咖喱味丨看字识国别

1052

扫码关注云+社区