视频质量机器过滤技术浅析(二):基于弱监督的多模态图像质量模型

短视频信息流产品是目前最炙手可热的互联网产品之一,每天会有海量的UGC与PGC视频被生产出来。如何平衡人工成本,高效地审核视频质量,挑出真正好的视频?基于AI算法准确识别视频质量并进行机器过滤,可以提高视频生产效率和生产质量,并最终提升用户体验。本专题具体介绍阿里文娱基于视频封面、标题、内容等多个维度的质量评价算法、系统与平台架构,以及业务落地与应用结果等。本文是专题的第二篇文章。

1 背景:为何需要图像质量算法?

无参考的图像质量评价(image quality assessment ,IQA)是一个古老而又用途广泛的研究领域,在视频压缩、图像增强、视频封面、图像推荐等领域都或多或少有其身影出现。

为提供更好的用户体验,优酷每天海量视频封面的生产需要大量人工进行审核,提高人审效率,降低人工成本,是一件非常重要的工作。我们设计开发了一套基于优酷视频数据的图像质量算法框架,提供图像质量服务,为业务赋能提效。

目前,图像质量算法可支持日均千万级图片处理需求,供给运营设计大量封面素材;并提供优酷视频机器过滤封面评级服务,在短视频封面人工审核业务中,较大程度实现了业务上提效。

2 算法架构:图像美学、内容、清晰度等模型

人工审核封面为尽量减少个体判断差异,优酷视觉设计团队提供了20余项客观指标,如人物个数、图像质量、标题安全区等。而本框架则从这些指标出发进行设计。

本框架主要包括几部分子项:图像美学模型,图像内容模型,清晰度模型,人脸相关模型。

3 弱监督图像美学回归模型

美学模型是图像质量评价的基础模型。所谓图像美学是图像摄影领域的一个概念,即判断图像是美或丑,而人类在判断时会依据一系列子指标,如三分构图,背景虚化,清晰度,主体突出等。很明显,美学评价是一个非常主观性的领域。同一幅图片张三认为是美,李四可能认为一般。考虑到主观性,美学评价应用最广泛的数据集AVA (Aesthetic Visual Analysis) ,图片数量较多,每一张图片均由多人打分构成,但这种标记手段,标记高昂,而且该数据集中图片较为老旧,和优酷场景所用图片有一定差距。另一常见的数据集为TID2013,主要侧重图片清晰度,且真实图片较少。AADB数据集是Adobe公司给出的一个公开数据集,每一张图对应总分和各子指标分值,该数据集图片和真实图片最为接近,但数量较少。

4 基于标签传播的数据构建及初始模型训练

美学回归模型为基于resnet50的回归模型,backbone即主干网络为resnet50模型,其后接一128维全连接层并接最终输出分值。

本任务数据集有标签数据为AADB数据集,其他数据基本是从优酷日常产出的视频封面中构建而来,其真值为对应的美学分值。在美学分值构建时,因大量数据无人工标记,采用了类似标签传播(label propagation)和主动学习(Active learning)的方法来构建。

所谓标签传播为弱监督学习中基于图模型(graph-based)的经典方法,其基本思路为利用有标签数据训练模型,之后利用该模型度量无标签数据和有标签数据的距离,距离较近的可以利用有标签数据进行传播预测,而预测得到的新模型可以持续迭代,实现标签传播。

主动学习是一种减少人工标注工作量的方法,即已有模型在预测无标签数据结果中,错分样本和分类置信度低的样本经过人工干预可以重新标注,而这部分数据因其难区分性,往往又会达到更好的训练效果。

  1. 有标签样本训练:初始选择有标签AADB数据集,并根据该数据集训练一深度回归模型,此处的回归模型采用了基于inception-v3的回归模型;
  2. 挑选优质图,标签传播:选用质量较好的封面数据,这部分数据为优酷日常积累,是运营人员对一些剧目人工上传的剧照等图像素材。利用已训练模型提取128维embedding分量,并和原始标签数据做距离判断,并利用较近的有标签数据的分值赋给无标签数据,同时外加随机扰动。
  3. 人造样本,分值加权:2)中图片人工添加噪音,具体添加噪音类型有:重影,模糊,jpg压缩,椒盐噪声,随机文本,随机图形,随机蒙版等。利用原始图片的分值,外加随机权值降低分数。此处对应产生6w图片。
  4. 中间模型训练:利用1)~3)中的数据重新训练模型,模型架构为resnet50。
  5. 真实样本,主动学习:挑选优酷日常审核团队积累的封面数据,该部分数据侧重于评价较为中等或偏差的数据,丰富样本构成。共4w数据。主动学习挑选难分样本:利用1) 4)中的模型生成标签,选择差距较大部分数据进行人工干预。
  6. 自建resnet-50模型训练:构建完整数据集,进行训练,得到基于resnet50的深度回归模型。

5 基于课程学习的模型优化

优酷在日常审核视频封面时积累了大量数据,审核团队会将封面划分为好中差三个等级,但该部分数据有较多噪音,部分为人工误判,部分来源于机器评级。同时人工审核时会有一些特定规则,比如竞品台标,标题安全区,大头照等,而这些规则逻辑上对美学评价影响较小,对美学任务来讲为错误划分的噪音。为了将这部分弱标签数据应用到美学模型中,我们使用了课程学习的办法进行优化。

所谓课程学习是模拟人类认知学习由易到难的过程,在机器学习过程中,将样本池由易到难划分为多个子样本集,这一过程称为课程选择;之后由易到难训练各子样本集即完成课程学习。可见课程学习的要点在于如何将样本池由易到难划分,同时课程训练策略的选择也至关重要。

课程选择使用了三个模型完成:

  1. NIMA基于AVA数据集的预训练模型;
  2. NIMA基于TID2013数据集的预训练模型;
  3. 自训练resnet50回归模型。同时选择500w样本池进行课程学习。

训练过程具体如下:

  1. 数据池生成初始真值文件:使用3个模型分别进行分值预测,构成3组真值文件;
  2. 课程设计:按照预设阈值对3组真值文件分别判定好中差,则最终将数据池划分为27组数据,即“好好好”->”差差差”。逻辑上来讲三个模型均评价为“好”的则该数据大概率为较优图片,均为“差”则该数据大概率为较差图片。按照这一逻辑将数据池划分为“易中难”三个数据子集;
  3. 课程学习:数据集分开训练,“易”数据集正常训练模型后;混合“易”“中”两个子集在之前基础上进行训练,但“易”“中”数据比例按2:1输入;混合“易”“中”“难”三个子集继续训练,“易”“中”“难”数据比例按4:2:1输入,最后得到最终训练模型;

将弱监督训练模型作为预训练模型,在自建数据集上finetune;此即为最终美学模型。

6 图像内容模型

优酷视频封面除了希望展现更好视觉体验之外,同样希望展现更好的内容给用户。封面内容希望展现跟当前剧集内容相关的,但目前这一点较难办到。

因优酷视频中影剧综占比较大,故人物的行为是优先考虑的,其中亲密/冲突是一类比较吸引人眼球的内容,而对动漫/记录片这种非人物主要内容的视频来讲,主体突出,画面保持干净是一个基本需求,故同样也添加了这一类别;此外还有一些人物内容,美学模型较难兼顾,如人物背影,部分人物,杂乱人物背景,人群等也被添加为训练类别。

7 清晰度模型

模糊/清晰度判断在日常应用中是一个比较基本的需求,故单独提取出来训练一个模型。基于深度学习的模糊判断,目前并未发现较好的结果。

从日常业务来看,有如下几个原因:

  1. 强个体差异性;
  2. 模糊是一个分辨率上的相对概念,模糊图像缩放到较低分辨率时可能消失,而清晰图像放大到较大分辨率后也可能模糊;
  3. 模糊同样也是空间上的相对概念,以模糊人脸举例,只考虑局部区域的话会判定为清晰,但放大到一定程度来讲才感知为模糊;
  4. 前背景模糊,只有前景模糊才算模糊,背景虚化是一种比较常用的摄影手段,但像遮标带来的模糊处于背景中,也会影响感观。

为此我们尝试了两种方案:

  1. resnet50分类模型:将样本标记为全图模糊,背景虚化,全图清晰,前景模糊四个类别。
  2. 前背景分割结合resnet50分类模型:使用deeplabv3+模型分离出前背景,前景区域抽取最小外接矩形以及最大内接矩形,准确率绝对值下降,模糊召回率提高,而清晰图片的召回率则是有明显下降。考虑到更多图片误判为模糊,而且速度劣势,故最终选择基于resnet50模型直接分类判定清晰度。

8 人脸相关模型

人脸在优酷日常视频中占据较大比例,故单独提取出来,作为一个单独的模块。人脸检测:使用MTCNN完成,检测出人脸后进行人脸关键点检测,之后抠取人眼区域进行睁/闭眼判断,睁闭眼模型采用lenet-5架构。

  1. 明星识别:为基于inception-v3的分类/注册双路模型;
  2. 人脸属性判断:主要是依据规则进行判定,标题安全区为特别定制,即人脸区域离图像边界有一定距离;头像判定则主要依据人脸检测框大小和位置判断,如大头像/头像/胸像等;人脸个数判断则是检出人脸个数不宜过多;表情识别目前调用外部平台结果,希望尽可能展现夸张表情。

下图为输出结果示意图:

9 展望

目前,图像质量算法满足了优酷多个视频封面业务需求,之后计划将多模型预测优化为单模型多分支输出预测,丰富输出细节,同时支持多种视频类型应用(影剧综,动漫,纪录片等),实现既输出更多审核内容又提升运行速度的需求。同时,在不同的业务场景下,需要对算法模型进行针对性的训练和优化迭代,以提高算法落地的实际效果。

参考资料

[1] AVA: A Large-Scale Database for Aesthetic Visual Analysis, Naila Murray, Luca Marchesotti, Florent Perronnin

[2] Photo Aesthetics Ranking Network with Attributes and Content Adaptation, Kong, Shu and Shen, Xiaohui, etc.

[3] NIMA: Neural Image Assessment, Hossein Talebi, Peyman Milanfar

[4] Learning with Local and Global Consistency, Dengyong Zhou, Olivier Bousquet, etc.

[5] CurriculumNet: Weakly Supervised Learning from Large-Scale Web Images, Sheng Guo, Weilin Huang, etc.

系列文章:

视频质量机器过滤技术浅析(一):系统与算法概述

  • 发表于:
  • 本文为 InfoQ 中文站特供稿件
  • 首发地址https://www.infoq.cn/article/raLhkey3rbP80jlBoua2

扫码关注云+社区

领取腾讯云代金券