视频质量机器过滤技术浅析(三):基于文本分类与特征的视频标题质量分析

短视频信息流产品是目前最炙手可热的互联网产品之一,每天会有海量的UGC与PGC视频被生产出来。如何平衡人工成本,高效地审核视频质量,挑出真正好的视频?基于AI算法准确识别视频质量并进行机器过滤,可以提高视频生产效率和生产质量,并最终提升用户体验。本专题具体介绍阿里文娱基于视频封面、标题、内容等多个维度的质量评价算法、系统与平台架构,以及业务落地与应用结果等。本文是专题的第三篇文章。

1 背景:从文本信息评估视频标题质量

短视频行业近年的快速发展,生产了大量的短视频,其中短视频质量是参差不齐的,如果放任其中的劣质视频发布, 会给用户造成不好的体验。一条短视频要被审核,需要从标题、封面、视频内容三个维度去分析,最后给出一个综合的评分。目前优酷短视频内容池每日新增的短视频有数十万量级, 但是人审带宽有限, 而且审核工作量和成本均是巨大的, 必须提供算法模型对视频打分, 达到接近人审的效果。本文从文本信息角度来评估短视频的标题质量。

2 技术框架:规则模型、文本二分类模型

短视频标题质量分析的技术框架分为规则模块、文本二分类模型。

2.1 六大规则模块

规则模块的目的是提取文本统计特征, 用于业务上直接判定劣质标题, 比如某些业务需要标题字数必须大于8,则可直接对标题检测和过滤。

  1. 敏感词和关键词检测:比如,短裙美女性感热舞内内
  2. 社交信息检测:比如,谈判与口才系列 更多精彩QQ153555286
  3. 标题语言检测:比如,中文简体,中文繁体,数字符号,外文
  4. 标题字数检测:比如,《虎踞龙盘》28集大型剿匪抗日电视连续剧,字数为20
  5. 标题形态检测:比如,文字:数字:符号=92.86%:0%:7.14%
  6. 标题错别字检测:比如,易洋千玺—>易烊千玺

2.2 文本二分类模型

标题质量分析可看成一类文本二分类问题, 开发二分类模型给标题打上概率得分(0-1之间, 得分越高表示标题质量越好), 最后基于业务设定阈值, 识别出差标题(得分低)。在本次框架中, 我们采用rnn+cnn model和bi-lstm with attention model两种分类模型, 两个模型预测得分进行加权平均, 得到最后的标题得分, 用于检测差质量的短视频标题。

3 标题质量分模型

3.1 模型选择

深度学习在文本分类问题上应用越来越广泛, 分类模型也常被用于文本质量分析, 我们开始采用的是经典TextCNN模型, 后来通过反复尝试和实验效果对比, 最终选取了能够捕获上下文信息的RNN + CNN模型和BI-LSTM with Attention 模型作为多模型融合方案。

3.2 模型细节

RNN+CNN model: 预训练200维的word embedding, 通过两层BI-RNN, 其中一层是hidden_size为64的BI-LSTM和一层是hidden_size为128的BI-GRU, 再经过一层一维卷积层和池化层(最大和平均池化), 最后是两层全联接层。

BI-LSTM with Attention model:  预训练200维的word embedding, 通过两层BI-RNN, 其中一层是hidden_size为64的BI-LSTM和一层是hidden_size为128的BI-GRU, 对bi-lstm和bi-gru做attention操作, bi-gru输出结果做最大和平均池化, 经过concat操作, 最后是两层全联接层。

3.3 样本集构建

从短视频内容池中,  我们选取了520万带有质量评级的样本, 其中正负样本比例是7: 93(正样本表示带坏标签的视频标题, 负样本表示带非坏标签的视频标题), 通过随机采样, 我们构建出106万条数据, 作为训练样本集。

4 效果与结论

标题质量模型上线后,机滤后视频标题送审低质率已经优化到1%左右,结合标题文本特征/规则检测,视频标题送审低质问题也基本得到了解决。

5 后续工作

目前标题质量模型还存在少许badcase, 采用每日数据回流策略, 扩充样本集, 定期重新训练模型和更新线上标题质量模型, 目的一方面是扩充样本集, 提升模型准确率;另一方面内容池的审核标准会随着时间而不断改善, 进而需要剔除一部分旧审核标准的样本。

模型的优化点, 一方面考虑将文本统计特征(比如上面的规则模块的部分文本特征)作为分类模型的输入; 另一方面模型融合策略的优化, 比如将多个模型的最后一层拼接起来, 再定义一个损失函数。

参考资料

[1] Convolutional Neural Networks for Sentence Classification Kim, Yoon. 2014. arXiv preprint arXiv:1408.5882 .

[2] A Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional Neural Networks for Sentence Classification  [Zhang and Wallace2015] Ye Zhang and Byron Wallace. 2015. arXiv preprint arXiv:1510.03820

[3] Using millions of emoji occurrences to learn any-domain representations for detecting sentiment, emotion and sarcasm Bjarke Felbo, Alan Mislove, Anders Søgaard, Iyad Rahwan, and Sune Lehmann. 2017. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing

[4] Quora Insincere Questions classification https://www.kaggle.com/c/quora-insincere-questions-classification

[5] 文本纠错 https://yuque.antfin-inc.com/zftpr0/textanalysis/pvehcs

[6] 优酷smartAI平台介绍 https://yuque.antfin-inc.com/ke5an3/euy590

  • 发表于:
  • 本文为 InfoQ 中文站特供稿件
  • 首发地址https://www.infoq.cn/article/31sK3a6RaKTv5ViaK364
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券