基于视频内容的 VR 片源识别算法研究

导语

随着虚拟现实技术的发展,VR视频板块也越来越多的涌现在各大视频网站,比如爱奇艺,youtube,优酷,腾讯视频等。随着专区版块的建立,用户自主上传的VR视频内容也越来越多,目前都是编辑工作人员审核进行VR视频和普通视频分类,如何设计算法实现自动分类VR视频和普通视频,提高VR片源审核效率显得尤为重要。

1.VR视频及播放原理

对于VR视频,大部分用户的概念更多的是在VR眼镜上,通过手机上特定的VR app眼镜播放模式来播放视频,然后将手机插入VR眼镜进行实际交互观看体验,如下图所示:

图:用户通过VR眼镜观看VR视频

对于后台视频数据存储库来说,实际上VR视频的视频数据保存格式和普通视频无差异,都是MP4等其他常见的格式。VR视频现在主要有3种类型比较广泛使用,分别是3D 360度,2D 360度,3D 180度。如下图所示:

图:3D 360度VR视频普通播放模式播放

图:2D 360度VR视频普通播放模式播放

图:3D 180度VR视频普通播放模式播放

与普通视频的区别在于VR视频需要专门的VR播放器插件将视频画面渲染到球面上,然后将用户观看视角置于球体中央,用户正面所对球体的局部画面即为用户当前所看到的全景的局部画面,当用户转动视角时就可以360度浏览当前场景的所有画面。全景360度交互浏览及VR眼镜上的播放模式也就是此原理。

图:VR视频播放原理

1.VR视频片源识别算法

由于VR视频和普通视频格式一样,网站或者应用里面的后台会字段标记为VR视频。不过对于用户在VR板块上传的视频,我们后台数据库服务器要鉴定审核其是否为VR视频,提高效率,只能基于视频本身的画面内容识别。

2.1VR相关基础知识

要想从VR视频本身画面内容角度识别出VR视频,就必须先了解VR视频是如何产生的,及其数据的保存方式。这里给出腾讯视频对于VR直播这块的整体流程,从数据采集、全景拼接到视频处理到编码推流的全套流程,如下图所示:

其中,全景视频是通过全景拼接技术生成,如下图所示:

全景视频的数据保存形式为Equirectangular投影方式,如果你带上一副VR眼镜进行观看,就可以在一定程度上体验到被世界环抱的感觉。这种投影方式的特点是水平视角的图像尺寸可以得到很好的保持,而垂直视角上,尤其是接近两极的时候会发生无限的尺寸拉伸。可以理解为水平方向(经度)360°和垂直方向(纬度)180°的数据都可以通过Equirectangular投影方式保存下来。

图:Equirectangular投影方式保存全景数据

越是靠近顶端和底部图片的扭曲就越严重,VR头盔和应用软件的意义也就在于将这些明显变形的画面还原为全视角的内容,进而让使用者有一种身临其境的包围感。

2.2视频片源识别算法

通过VR基础知识我们知道,与普通视频的差别在于,VR视频画面是Equirectangular投影方式保存的球体模型数据。我们算法核心思想就是将一帧视频画面反投影到球体上,变换得到局部特定角度(对应全景视频的边界,如图红框所示)的正常画面,对画面内容进行相似度计算,得到一个表征相似度的二维向量,最后用SVM模型进行分类。

整体算法流程如下:

具体过程如下:

1.原始VR视频的一帧全景画面

2.全景画面投射到球面上,变换得到固定的9个视角画面,分别如下:

3.对每个视角画面进行相似度计算,得到表征相似度的二维向量

4.构建SVM分类器

得到9个普通视角的相似度二维向量取均值,构成最终的表征VR特性的二维向量。为了构建SVM分类器,我们取5000张VR视频画面,5000张普通视频画面,分别求取对应的VR特性的二维向量作为训练数据进行SVM模型分类训练,得到最终的分类模型。

5.加载SVM分类模型进行VR片源识别

对于一帧视频画面,求取其对应的VR特性的二维向量,然后送入SVM分类器进行分类,判断其是否是VR视频对应的画面。为了更准确的判断一个视频是否是VR片源,我们这里采用等间隔选取视频中的2n+1个关键帧画面,进行上述分类操作,若其中有n+1画面类别判断为VR视频画面,则判定该视频为VR片源。

注意:本文提出的算法是针对360度VR视频片源的识别,对于180度VR的识别算法并不适用。对于测试数据算法的准确率99%,有待后续上线应用测试。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

赵永飞的专栏

1 篇文章1 人订阅

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

学界 | 北京大学研究者提出注意力通信模型ATOC,助力多智能体协作

2124
来自专栏新智元

【开发者的2018】GAN、AutoML、统一框架、语音等十大趋势

来源:medium 作者:Alex Honchar 翻译:刘小芹 【新智元导读】本文从开发者的角度,总结了GAN、AutoML、语音识别、NLP等已经可以用...

3466
来自专栏智能算法

推荐算法概览

原文:Overview of Recommender Algorithms 作者: MAYA.HRISTAKEVA 译者: 孙薇 推荐算法概览(一) 为推...

4177
来自专栏机器之心

前沿 | 18000块GPU的深度学习机器:橡树岭实验室即将推出Summit超级计算机

选自Nextplatform 作者:Nicole Hemsoth 机器之心编译 参与:黄小天、李泽南 美国橡树岭国家实验室的「Titan」超级计算机是「美洲虎」...

3538
来自专栏大数据文摘

干货:从相关性到RNN,一家线上“租碟店”的视频推荐算法演进 | 公开课实录

2462
来自专栏ATYUN订阅号

fast.ai推出全新的7周实用深度学习课程

深度学习入门课程第1部分,为编码人员提供实用的深度学习入门课程,由Jeremy Howard (Enlitic创始人)授课。深度学习入门课程不需要研究生水平的数...

984
来自专栏企鹅号快讯

这个用来玩儿游戏的算法,是谷歌收购DeepMind的最大原因

大数据文摘字幕组作品 大家好呀!YouTube网红小哥Siraj又来啦! 这次他将为我们讲解Deep Q Learning——谷歌为了这个算法收购了DeepMi...

2058
来自专栏CSDN技术头条

推荐算法概览

推荐算法概览(一) 为推荐系统选择正确的推荐算法非常重要,而可用的算法很多,想要找到最适合所处理问题的算法还是很有难度的。这些算法每种都各有优劣,也各有局限,因...

38510
来自专栏灯塔大数据

荐读|大数据会撒谎?如何戳破大数据的谎言

数据科学家使用统计分析工具深度挖掘数据潜在的内容时经常会遭遇到大数据挖的坑,实际上这些坑并不是只有大数据才有,大自然本身就存在很多虚假的相关性,大数据只是更加...

2966
来自专栏ATYUN订阅号

NVIDIA新的人工智能技术:机器人观察人类行为,与人类共同完成任务

NVIDIA的研究人员开发了一个基于深度学习的系统,可以教导机器人通过观察人类的行为来完成任务。该方法旨在加强人与机器人之间的沟通,同时进一步研究将使人们能够与...

1275

扫码关注云+社区