视频负反馈评测

背景

QQ浏览器的feeds视频每天有数亿的播放量,视频的质量会影响用户使用QB的体验。如何在海量的视频库中发现劣质视频,一直是视频运营的重要关注点。常用的方式是,给视频加一个举报按钮,让用户来举报,这是一个直接且有效的方式。

图:视频的举报功能

但是鉴于举报的按钮不明显,用户不知道举报功能等原因,依然有大量的劣质视频没有被发现。通过观察发现,劣质的视频通常会有大量的用户在评论里面吐槽。

图:用户在评论里面吐槽标题党

因此想到通过评论内容判断视频的质量,实践中使用了 tensorflow 训练模型。当前会将评论分为标题不符,广告宣传,内容重复过时等类别。

评论模型训练

1、评论收集

要训练模型,必须要有相应的训练集和验证集,视频评论有 8 个分类每个分类都需要大量的数据。首先在视频后台的播放记录中获取播放量比较大的视频 vid,然后通过视频的http接口,通过 vid 获取评论。通过这种方式每天能拿到上百万的评论,但是这些评论大部分都是用户正常的评论。

QQ 浏览器资讯之前已经做过类似的模型,资讯包含了一个情感分类(正面,负面)的模型,吐槽的内容一般都是在负面评论里面。所以前期会将所有的评论使用情感分析,得到大量的负反馈评论。通过这个步骤可以从百万级别的评论中筛选出十万级别的负面评论。

2、评论标注

已经有了十多万的负面评论,但是这些数据依然不能用于训练,需要标注分类后才能用于训练。评论的标注是在企鹅众测(https://wetask.qq.com/tasks?type=0)上完成的,企鹅众测上有多种类型的数据标注,不同的用户有不同的擅长领域。因此前期组内选出了 60 个标注的测试题,放在众测上做用户的测试和筛选,选出成绩比较高的众测用户作为之后的核心视频评论标注用户。

核心用户选择完成后就能发布标注任务了,任务包含说明,需要标注的评论内容等信息。众测用户收到任务后,就可以在手机 APP 上进行标注了。

图:众测任务说明界面

图:众测用户标注界面

众测的后台会将同一个题目随机分给 3 个不同的众测用户标注,然后将 3 个标注结果进行统计,如果某个分类结果有 2 个以上的用户标注,则为有效的评论标注,否则该评论不使用。

图:标注结果统计(绿色为有效标注,红色为无效标注)

3、开始训练

有了标注的数据,就可以训练模型了。视频的评论使用工具是tensorflow,网络是CNN,速度比RNN快很多。具体是训练文章网络上已经有很多,可以网上搜索“文本分类 tensorflow”参考。

视频评测

1、获取视频vid

评测的模型训练完成后,就可以用来评测线上的数据了。线上数据的获取,视频这边是从播放记录拿的数据。使用 QQ 浏览器每播放完一个视频,就会将视频的播放记录上报到后台,其中就有 vid 字段。在数据工厂[一个数据平台] 建立每日任务,统计每天播放量比较大的 vid,然后将 vid 导入到 mdb[一个数据库平台] 数据库。

2、获取视频评论

将评测的脚本放到公司的 Docker上,评测脚本每天定时执行。执行时从 mdb 获取 vid,然后脚本根据 vid 获取视频的评论。

3、开始评测

将一个视频的所有评论使用模型评测,如果评论结果为问题视频(根据负面视频的占比),还会将该 vid 对应的信息补全(视频标题,封面图等信息)方面后期运营同学处理评测结果。

结果处理

1、人工下线视频

模型评测出的视频,不会是 100% 的问题视频,总会有失误的情况。因此将评测出的视频放到了一个 mdb 的表里面,由运营同学再次人工审核下线,而不是直接下线。运营的前端同学做了前端页面,从数据库读取视频,然后执行下线操作。

图:负反馈视频操作页面

2、加入黑名单

运营同学点击删除按钮后,该视频的 vid 就会进入视频系统的黑名单。进入黑名单的视频不仅不会得到相关视频的推荐,并且无法直接播放,访问时会直接提示已经删除。

3、模型结果和优化

当前的的评测模型每天能识别出 100 多个问题视频,经过人工确认的视频有 40-80 个,占比 70% 左右。运营同学手工确认的问题视频,后台也会收集用来优化模型。

图:每日视频处理情况的统计

最后放一张负反馈流程的全图:

关注腾讯移动品质中心TMQ,获取更多测试干货!

版权所属,禁止转载!

原文发布于微信公众号 - 腾讯移动品质中心TMQ(gh_2052d3e8c27d)

原文发表时间:2018-05-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据科学与人工智能

【经验】数据可视化专家的七个秘密

数据可视化的道路上充满了不可见的陷阱和迷宫,最近ClearStory Data的两位数据可视化开发人员分享了他们总结出来的数据可视化开发的7个不宣之秘,普通开发...

20710
来自专栏数据派THU

19个超赞的数据科学和机器学习工具,编程小白必看!(附资料)

编程是数据科学的一个组成部分。事实上,理解编程逻辑、循环和函数的人更有可能成为成功的数据科学家。但那些在学校里从未学习过编程的人怎么办?

1343
来自专栏深度学习那些事儿

浅谈深度学习的落地问题

关于深度学习人工智能落地,已经有有很多的解决方案,不论是电脑端、手机端还是嵌入式端,将已经训练好的神经网络权重在各个平台跑起来,应用起来才是最实在的。

4161
来自专栏AI科技评论

盘点丨开发者必备:基于 Linux 生态的十大 AI 开源框架

前不久,AI 科技评论曾盘点了一系列机器学习相关的开源平台,包括谷歌的TensorFlow、微软的CNTK以及百度的PaddlePaddle等等。这些平台各具特...

3788
来自专栏机器学习算法与Python学习

Delicious和Hacker News--基于用户投票的排名算法

来源:阮一峰 ruanyifeng.com/blog/2012/02/ranking_algorithm_hacker_news.html 互联网的出现,意味着...

3585
来自专栏移动应用测试

视频负反馈评测

QQ浏览器的feeds视频每天有数亿的播放量,视频的质量会影响用户使用QB的体验。如何在海量的视频库中发现劣质视频,一直是视频运营的重要关注点。常用的方式是,给...

2686
来自专栏CSDN技术头条

[访谈] Olivier Grisel谈scikit-learn和机器学习技术的未来

几周前,我们的Florian Douetteau (FD)对Olivier Grisel(OG)进行了一次访谈,正好我得到这个机会去旁听。Olivier是sci...

1926
来自专栏吉浦迅科技

英伟达DesignWorks VR用虚拟现实做现实世界的设计

英伟达(NVIDIA)发布了DesignWorks VR,一套新的工具配合之前推出的GameWorks VR SDK一起使用,聚焦代替在虚拟现实里创建物理对象。...

2806
来自专栏数据科学与人工智能

【Python环境】Olivier Grisel谈scikit-learn和机器学习技术的未来

几周前,我们的Florian Douetteau (FD)对Olivier Grisel(OG)进行了一次访谈,正好我得到这个机会去旁听。Olivier是sci...

2209
来自专栏奇点大数据

OpenAI发布强化学习环境Gym Retro:支持千种游戏

项目链接:https://github.com/openai/retro/tree/develop

1583

扫码关注云+社区

领取腾讯云代金券