前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【AI视频编码】IEEE ISCAS2018 相关研究进展

【AI视频编码】IEEE ISCAS2018 相关研究进展

作者头像
用户1324186
发布2018-07-26 16:50:25
1.4K0
发布2018-07-26 16:50:25
举报
文章被收录于专栏:媒矿工厂媒矿工厂

ISCAS 2018于2018年5月26日到5月30日在意大利佛罗伦萨举行,会议主题为Art of Circuits and Systems,与佛罗伦萨-欧洲文艺复兴的起源地相映成趣。会议为期五天,包含四天的技术报告,并有David H. Robertson、Reid R. Harrison、Alessandro Cremonesi和Mauro Bosio等学界业界专家进行报告。今年是ISCAS 50周年,因此会议举办的格外盛大。

本文将主要针对Learning Based Video Coding的专题分会场,希望看看人工智能给编码带来了哪种新鲜的活力。据笔者了解,最初将CNN用于编码主要是用于分像素插值与后处理,这些处理都是把视频当做不相关的图片进行处理,没有很好地利用视频的特性,尤其是视频编码的特性,而本次会议中提出了两个与视频编码耦合更紧的基于机器学习的视频编码方法。

一、 基于CNN的运动补偿优化

视频编码中存在时间和空间冗余,为了去除视频帧之间的时间冗余,运动补偿通过从先前编码的帧中检索来生成预测信号。众所周知,更准确的预测会导致更少的残留,从而提高压缩效率。在传统的块级运动补偿方法(MC)中导致不准确的预测有几个不同的原因。首先,由于参考帧包含压缩噪声,所以预测信号也具有噪声。其次,自然视频中的真实运动可能更加复杂。第三,MV可能不会是整数(或半个,四分之一等)像素。因此,还有进一步提高运动补偿预测精度的余地。

本主题在该专题分会中有两个报告[1][2]。 分别来自中科大吴枫教授团队和北大马思伟教授团队。

报告[1]首先执行传统的运动补偿,然后应用训练的CNN来细化预测信号,并相应地压缩残差。在训练CNN网络和使用CNN进行预测时,该工作中不仅输入了预测CU(图中的浅蓝色方形区域),还加上了空间相邻,宽度为8个像素值的重建信号(红色虚线框内的重建像素值)。Ground truth即为原始YUV视频的像素值。

该工作使用的是VRCNN网络,由于使用空间相邻信号作为输入,导致网络输入分辨率变大,因此该工作在网络的最后加了一层用于裁剪。

另外该工作还加入了CU级别开关,用于决定是否打开基于CNN的运动补偿修正。经过实验,得出基于CNN的MC修正可以在ClassB-F,LDP配置下实现平均2.3%的码率节省。经过进一步实验,作者还发现该方法与OBMC方法得效果可以叠加,共同作用,实现5.2%的码率节省。

在报告[2]中,进一步展示了针对多参考帧情况,也就是RA配置下基于CNN的MC修正,该工作中提出的网络结构如下图所示:

本工作中使用了6个卷积层用于生成残差并采用一个skip connection生成预测值。网络的输入为两个参考块,输出为生成的参考像素值。在实验中,本工作对RA模式下16x16,32x32和64x64大小的PU采用基于神经网络的方法进行运动补偿,效果如下:

从表中可以看出,在RA模式下可以实现3.1%的码率节省,这也可以说明通过CNN优化运动估计模块可以有效预测一些非线性信号并弥补一些块划分固有的缺点。

二、 基于强化学习的码率控制

强化学习已被证明对解决决策问题有效。但是,它在现代视频编解码器中的应用还有待观察。中国台湾国立交通大学Wen-Hsiao Peng老师团队提出了一个将强化学习引入HEVC / H.265帧内码率控制的尝试。其任务是确定帧中每个CTU的量化参数值QP,其目的是最小化受到码率约束的帧级失真。通过将编码树单元的纹理复杂度和码率稳定程度作为状态,量化参数值作为需要采取的动作,以及负失真作为强化学习中的奖励,来将码率控制问题转化为强化学习问题。本工作使用Q-learning观察状态以评估每种可能行为的奖励。目前该实验只使用了有限的8个序列进行训练,所提出的模型已经与HM-16.15中的码率控制算法有相近表现。

强化学习的循环如上图所示,其中a是采取的决定,r是奖励reward,s代表状态,而强化学习的目的则是希望通过奖励作为信息,学习出状态到决定的映射关系。

针对帧内编码的场景,每一帧都是独立编码,因此本工作的目的是确定一帧中每个CTU的QP值,使得帧级失真最小化,并且编码码率和目标码率一致。

为了达到编码应用的低复杂度需求,训练网络采用的是一个3层的全连接网络,第一层有400个隐藏单元,第二层有300个隐藏单元,输出层7个。

采用当前的方法进行码控,相对于HM默认码控方法性能损失目前为2.8%,如下表所示:

但是从码率的平稳性来看,该码率控制方法R-lambda模型相近,在整个序列的码率控制的精准性上以及主观视觉上略有优势:

参考文献

[1] Huo S, Liu D, Wu F, et al. Convolutional Neural Network-Based Motion Compensation Refinement for Video Coding[C]//Circuits and Systems (ISCAS), 2018 IEEE International Symposium on. IEEE, 2018: 1-4.

[2] Zhao Z, Wang S, Wang S, et al. CNN-Based Bi-Directional Motion Compensation for High Efficiency Video Coding[C]//Circuits and Systems (ISCAS), 2018 IEEE International Symposium on. IEEE, 2018: 1-4.

[3] Hu J H, Peng W H, Chung C H. Reinforcement Learning for HEVC/H. 265 Intra-Frame Rate Control[C]//Circuits and Systems (ISCAS), 2018 IEEE International Symposium on. IEEE, 2018: 1-5.

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-06-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 媒矿工厂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档