VR视频识别率测试方案

作者:tangonian

团队:腾讯移动品质中心TMQ

导语

VR眼镜层出不穷,VR 应用如雨后春笋,它们消费的内容主要有图片,视频和游戏3种。当前优酷,搜狐,乐视,爱奇艺,Youtube等比较大的视频网站,都推出了VR视频专区,各种比较小的专注VR视频的网站多不胜数,其中比较有名的有Utovr,591vr等。用户在使用QQ手机浏览器(Android)过程中视频的播放量很大,其中不可避免的会有VR视频。

VR视频一般是mp4格式,与普通视频无异。mp4视频里面并没有标记这是一个普通视频,还是一个VR视频。一般网站或者应用里面区分VR视频的做法是,在后台的数据库里面有个字段标记。但是QQ浏览器里面的播放器只能拿到一个视频的URL,无法知道这是一个普通视频还是VR视频,所以播放的时候只能按照普通视频去渲染。

VR视频眼镜播放模式(可以转动手机查看周围)

VR视频普通播放模式

如何判断视频是不是VR视频

前面已经说了,QQ浏览器的视频播放器只能拿到一个视频的播放地址,所以判断是否VR视频,只能从视频本身出发。观察以下VR视频和普通视频的截图两端红框区域,发现VR视频的两端边缘相似度较高,而普通视频的边缘相似度很差。VR视频识别的算法就是基于这个现象,获取一个视频多个帧的图片,然后给出视频是VR视频的概率。

VR视频截图

普通视频截图

算法存在的问题

通过上面的介绍,知道这个算法是根据图片边缘相似性得到结果,出于效率的考虑检查的图片数量和检查的粒度不能设置太高,那么它得到的结果会有两个不可避免的问题:将VR视频识别为普通视频;将普通视频识别为VR视频。如以下示例:

VR视频被识别为普通视频(画面昏暗的视频很容易误判)

普通视频被识别为VR视频(边缘相似度较高的普通视频)

对于这样一个计算概率性的算法,需要找到尽量多的失败用例,然后根据失败的特点来改进算法。为了发现失败用例,需要一个很大的测试集,这个测试集合里面包含了一个VR视频集合,以及一个普通视频的集合。这个集合的作用是尽量使VR视频正确识别,又要保证普通视频不会被识别为VR视频。这个集合最好还要易于增加测试源,用来验证算法的有效性。

测试集的建立

最开始测试集合是到网络上下载VR视频,保存到本地,然后用来测试验证。这种方式的优点是测试的速度很快,因为都是本地视频。但是缺点也很明显,VR视频的size太大(5 分钟的视频经常会上 G)本地保存比较麻烦;每次去网上找下载太耗时,不容易增加,而且容易重复。

现在的测试集合保存的是视频网页的网址,网址有爬虫爬取。当前做了12个网站的爬虫,基本包含了国内主流的视频网站和VR 视频网站。

支持的主流网站(source表)

在爬虫里记录了网站经常更新的页面(一般是网站的分类网址:如优酷的电视剧,电影分类的 URL),爬虫运行时将爬去到的页面地址保存到Video表。保存前会自动分析页面的特征,判断该页面的视频是不是 VR 视频,并将结果一起保存到video表,从而建立VR视频集合以及普通视频集合。

测试过程中如果发现有的视频源已经失效,需要在video表中标记无效,不用删除视频源,避免下次再次加入。如果是自动化能识别的失效可以自动化标记(如:视频已经下线跳转到404页面),否则需要人工根据测试结果标记。

测试集合内的视频(video 表)

当前测试集合的VR视频数量有2500个,普通视频数量有7000 个,由于现在的测试工具尚不支持https的测试源,所以有些视频还没有测试过。

测试准备

有了爬虫就可以建立测试集,有了测试集还需要测试工具。测试工具是开发提供的一个exe程序,程序的调用方式:VideoDetector.exe -c 30 -u http://www.xxx.mp4 ,调用后的返回结果是视频为VR视频的概率,如果出错返回 -1。

测试集和测试结果都保存在数据库中,数据库中有 4 张表。上面已经介绍了source和video表,分别支持的网站和爬虫爬取的视频网页。还有一个task表,用来记录每次测试的结果,另外还有一个result表,用来记录每个视频的测试结果。

测试结果(task 表)

具体视频的结果(result 表)

测试流程

测试成效

以上是最近的一次测试结果,更新算法后,验证 VR 视频的成功率提升了 20%,验证非 VR视频的成功率下降了 3%。 使用该方案后,能快速了解算法对视频识别率的影响,并能方便获取失败用例,用来改进算法。

对于 VR 视频的检测,你是否有更好的方法呢?

欢迎留言探讨。

获取更多测试干货,关注腾讯移动品质中心TMQ公众号。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

超越批处理的世界:流计算

26240
来自专栏大数据和云计算技术

大数据和云计算技术周报(第60期)

“大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及,知识点广、学习难度高。

18410
来自专栏云计算D1net

阻碍云实例优化的5个常见问题

目前所推出的公有云环境(如AWS,微软Azure和谷歌云平台),已经成为企业在IT基础架构资源上节省资金的一种手段。不幸的是,情况并非如此。云端产品日益增加的复...

33760
来自专栏数据和云

YH10:分布式存储解决方案zData

云和大数据时代的到来导致各行各业数据量的爆发,面对业务数据的日益剧增,企业的IT系统在性能、稳定性和扩展性等方面都面临前所未有的巨大挑战。如何有效应对云和大数据...

45240
来自专栏H2Cloud

通用排行榜组件

简介: 排行榜是游戏组件中必不可少的组件,设计一个可重用的排行榜是必不可少的,一个排行榜系统需要满足如下要求: 排行榜一般是限制名次的,比如只为前100 名进行...

40770
来自专栏ATYUN订阅号

TensorFlow推出新工具Seedbank,可查找大量ML示例

发现和开始使用机器学习可能并不容易。也许你有一个项目的模糊想法,正在寻找入手点。或者也许你正在寻找灵感,并想要了解可能的情况。

12230
来自专栏码神联盟

碎片化 | 第五阶段-01-公司类型和项目类型介绍-视频

如清晰度低,可转PC网页观看高清版本: http://v.qq.com/x/page/c05007f85s3.html 公司类型、项目的类型 ?

35290
来自专栏PPV课数据科学社区

用户行为数据可视化:行为序列图

一.引子: 作为一名网站的用户研究工作人员,我曾经碰到过以下问题: • 深知服务器日志是一座金矿,但不知道该从哪里开始分析? • 辛辛苦苦盯着电脑一天,看了10...

44740
来自专栏AI深度学习求索

一本有趣的看图学算法的书籍《算法图解》

今天给大家推荐一本挺有趣的书《算法图解》,里面很多有趣的插图,赠送PDF书籍,可以方便大家理解算法:

14720
来自专栏ATYUN订阅号

解开uKit AI项目的幕后秘密:自动化网站重新设计

? 第1部分:基础知识 没有什么是一成不变的,有时你需要修改网站上的一些东西以保持网站的新鲜度。也许是外观和新的配色方案。也许存在技术问题,比如取消Flash...

35760

扫码关注云+社区

领取腾讯云代金券