基于视频内容的 VR 片源识别算法研究

导语

随着虚拟现实技术的发展,VR视频板块也越来越多的涌现在各大视频网站,比如爱奇艺,youtube,优酷,腾讯视频等。随着专区版块的建立,用户自主上传的VR视频内容也越来越多,目前都是编辑工作人员审核进行VR视频和普通视频分类,如何设计算法实现自动分类VR视频和普通视频,提高VR片源审核效率显得尤为重要。

1.VR视频及播放原理

对于VR视频,大部分用户的概念更多的是在VR眼镜上,通过手机上特定的VR app眼镜播放模式来播放视频,然后将手机插入VR眼镜进行实际交互观看体验,如下图所示:

图:用户通过VR眼镜观看VR视频

对于后台视频数据存储库来说,实际上VR视频的视频数据保存格式和普通视频无差异,都是MP4等其他常见的格式。VR视频现在主要有3种类型比较广泛使用,分别是3D 360度,2D 360度,3D 180度。如下图所示:

图:3D 360度VR视频普通播放模式播放

图:2D 360度VR视频普通播放模式播放

图:3D 180度VR视频普通播放模式播放

与普通视频的区别在于VR视频需要专门的VR播放器插件将视频画面渲染到球面上,然后将用户观看视角置于球体中央,用户正面所对球体的局部画面即为用户当前所看到的全景的局部画面,当用户转动视角时就可以360度浏览当前场景的所有画面。全景360度交互浏览及VR眼镜上的播放模式也就是此原理。

图:VR视频播放原理

1.VR视频片源识别算法

由于VR视频和普通视频格式一样,网站或者应用里面的后台会字段标记为VR视频。不过对于用户在VR板块上传的视频,我们后台数据库服务器要鉴定审核其是否为VR视频,提高效率,只能基于视频本身的画面内容识别。

2.1VR相关基础知识

要想从VR视频本身画面内容角度识别出VR视频,就必须先了解VR视频是如何产生的,及其数据的保存方式。这里给出腾讯视频对于VR直播这块的整体流程,从数据采集、全景拼接到视频处理到编码推流的全套流程,如下图所示:

其中,全景视频是通过全景拼接技术生成,如下图所示:

全景视频的数据保存形式为Equirectangular投影方式,如果你带上一副VR眼镜进行观看,就可以在一定程度上体验到被世界环抱的感觉。这种投影方式的特点是水平视角的图像尺寸可以得到很好的保持,而垂直视角上,尤其是接近两极的时候会发生无限的尺寸拉伸。可以理解为水平方向(经度)360°和垂直方向(纬度)180°的数据都可以通过Equirectangular投影方式保存下来。

图:Equirectangular投影方式保存全景数据

越是靠近顶端和底部图片的扭曲就越严重,VR头盔和应用软件的意义也就在于将这些明显变形的画面还原为全视角的内容,进而让使用者有一种身临其境的包围感。

2.2视频片源识别算法

通过VR基础知识我们知道,与普通视频的差别在于,VR视频画面是Equirectangular投影方式保存的球体模型数据。我们算法核心思想就是将一帧视频画面反投影到球体上,变换得到局部特定角度(对应全景视频的边界,如图红框所示)的正常画面,对画面内容进行相似度计算,得到一个表征相似度的二维向量,最后用SVM模型进行分类。

整体算法流程如下:

具体过程如下:

1.原始VR视频的一帧全景画面

2.全景画面投射到球面上,变换得到固定的9个视角画面,分别如下:

3.对每个视角画面进行相似度计算,得到表征相似度的二维向量

4.构建SVM分类器

得到9个普通视角的相似度二维向量取均值,构成最终的表征VR特性的二维向量。为了构建SVM分类器,我们取5000张VR视频画面,5000张普通视频画面,分别求取对应的VR特性的二维向量作为训练数据进行SVM模型分类训练,得到最终的分类模型。

5.加载SVM分类模型进行VR片源识别

对于一帧视频画面,求取其对应的VR特性的二维向量,然后送入SVM分类器进行分类,判断其是否是VR视频对应的画面。为了更准确的判断一个视频是否是VR片源,我们这里采用等间隔选取视频中的2n+1个关键帧画面,进行上述分类操作,若其中有n+1画面类别判断为VR视频画面,则判定该视频为VR片源。

注意:本文提出的算法是针对360度VR视频片源的识别,对于180度VR的识别算法并不适用。对于测试数据算法的准确率99%,有待后续上线应用测试。

原创声明,本文系作者授权云+社区-专栏发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

赵永飞的专栏

1 篇文章1 人订阅

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏IT派

2017年,机器学习在Quora的五大应用场景

作者|Nikhil Dandekar 翻译|薛命灯 2015 年,Quora 的工程主席 Xavier Amatriain 非常精彩地回答了 Quora 上的一...

2526
来自专栏AI科技评论

观点 | 不需要敲代码就可以开发深度学习应用?我们来探个究竟

AI 科技评论按:在深度学习仍然需要不少的数学和计算机编程能力的现在,如果突然出现了一个不需要写任何公式和代码的深度学习应用开发平台,你会是什么感觉?震惊?鄙夷...

1032
来自专栏AI研习社

不需要敲代码就可以开发深度学习应用?我们来探个究竟

AI 研习社按:在深度学习仍然需要不少的数学和计算机编程能力的现在,如果突然出现了一个不需要写任何公式和代码的深度学习应用开发平台,你会是什么感觉?震惊?鄙夷?...

462
来自专栏架构师之路

3分钟了解“关联规则”推荐

“把啤酒放在尿布旁,有助于提升啤酒销售量”是关联规则推荐的经典案例,今天,和大家聊聊“关联规则推荐”,正文不含任何公式,保证PM弄懂。 一、概念 什么是关联规则...

3287
来自专栏人工智能的秘密

深度学习让人脸识别准确率不断提升

  人脸识别、图像分类、语音识别是最早的深度学习取得突破的主要几个技术方向。在2014年前后,多家技术公司纷纷宣布其利用深度学习在LFW上取得的最新成果,此为深...

2269
来自专栏专知

深度学习为什么需要工业化标准

【导读】近日,深度学习作者Carlos E. Perez发表一篇博客,讨论了深度学习的工业化标准问题。我们知道,深度学习是当前AI领域的一个利器,其标准也不能照...

3375
来自专栏CDA数据分析师

自学机器学习向导

这里,你在学习机器学习的过程中,可以做很多的事情。这里有很多来自书籍和课程的资源给你提供参考,甚至你可以参加比赛和属性使用工具。在这篇文章里,我想对这些活动提供...

1897
来自专栏AI研习社

别以为语言学家就整天咬文嚼字,其实他们代码也很 6

AI 研习社按:统计 NLP 已取得巨大成果,但其极度依赖统计手段,相比之下深入的语言学思考少很多。当今研究遇到瓶颈,许多 NLP 的研究者都在引入一些语言学的...

742
来自专栏PaddlePaddle

深度学习可视化工具Visual DL——“所见即所得”

1月17日,百度PaddlePaddle& ECharts团队宣布上线深度学习可视化工具Visual DL,该工具可以使得深度学习任务变得生动形象,实现可视分析...

3885
来自专栏ATYUN订阅号

谷歌推出开源强化学习框架Dopamine

强化学习研究在过去几年取得了许多重大进展。这些进步使得智能体以超越人类的级别玩游戏,值得注意的例子包括DeepMind的DQN玩Atari游戏,AlphaGo,...

823

扫码关注云+社区