基于机器学习和深度学习的视频处理

用户1324186

发布于 2020-11-02 10:50:14

1.3K0

发布于 2020-11-02 10:50:14

文章被收录于专栏：媒矿工厂

该会议来自于IBC2020 TECHNICAL PAPERS，本期内容主要为基于机器学习和深度学习的视频处理。主持人为Dr. Paul Entwistle, 来自IBC Technical Papers 协会。两位演讲人为Taeyoung Na与Luka Murn。

附上论文链接：

https://www.ibc.org/technical-papers/introduction-to-supernova-a-deep-learning-based-image/video-quality-enhancement-platform/6772.article?adredir=1

https://www.ibc.org/technical-papers/towards-transparent-application-of-machine-learning-in-video-processing/6774.article?adredir=1

超分辨率重建。当对视频进行上采样时十分有用，分辨率，帧率，动态范围。本次会议中提到的两篇文章都在这个任务中使用了机器学习。第一个演讲者为Taeyoung Na，SK Telecom的经理。 Taeyoung介绍了随着深度学习的发展，在各种领域中，基于深度学习的方法得到的效果都比传统方法好，尽管有着复杂度高的问题，但是GPU的更新迭代也正在逐渐在这方面进行突破。

Taeyoung的论文题目是：Introduction to SUPERNOVA: a deeplearning-based image/video quality enhancement platform。该文章提出的动机在于，越高的分辨率带来更高的真实度，随着对于高清晰度的需求的提升，还是有许多的旧SD视频内容存在，因此需要超分辨率过程来加强这些视频质量。且高分辨率同时会自然地对帧率产生要求，同时对视频产生更灵活的尺寸比例，就能够让其在更多的设备上进行播放。Taeyoung展示了SUPERNOVA的虚拟框图，其中有三个重要模块函数，Up-Scaling Module上采样模块，HFR Module高帧率模块和Re-targeting module重定位模块，右侧的橙色框中的参数集是为不同的应用所准备的。

接下来Taeyoung详细介绍了每个模块，首先他展示了超分辨率模块的内部结构，其中有8个longresidual block长残留块，3个卷积层和一个跳跃连接。HFR Module，HFR通过使用ConvolutionalLong-Short Term Memory(LSTM)和ConvolutionalNeural Network(CNN)在两个视频帧之间用深度学习插入新帧的方式，有效地找到局部和全局的时空特性来插动作帧，得到一个帧率更高，观看质量更好的视频。在这个Module中，由五个部分组成：FeatureExtraction特征提取，Convolutional LSTM卷积长短时网络编码，bottleneck，卷积长短时解码和Feature Map Kernels特征网络核。最后是Re-TargetingModule，由saliency detection显著性检测部分和re-sizingoperation重调尺寸部分组成。在显著性检测中使用了VGG16编码和U-net解码来进行训练，并在重调尺寸操作中通过使用双向映射和动态算法来找到最优的重调尺寸算法。随后Taeyoung展示了从SD超分至FHD的效果展示，HFR的表现结果，可以看到HFR在不同的方法比较下是达到了最好的SNR，最后的Re-targeting表现结果中，可以看到相比与线性比例调整，画面中的主要内容并没有随着比例的调整和产生过大的扭曲和变形。

超分和HFR功能是可以在实时进行处理的，且随着GPU数量的增加，SUPERNOVA的效率能够乘倍增加。Taeyoung将来的工作中希望加入更多如降噪声，脸部图像重建，去雾效应等功能。

第二位演讲者是Luka Murn，R&D工程师，BBC。他的论文题目是Towards Transparent Application of MachineLearning in Video Processing。机器学习在视觉内容处理方向中已经有了很多进展，如上文中的超分，以及图像预测上色等。在视频编码中，于2020年6月推出的H.266/VVC编码规格包含了简化的机器学习工具，机器学习已经被证明可以提升视频编码的压缩率，但是随之而来的也有无法使用的复杂度计算时间，因此，需要找到方法去让这个算法更加简单，快速且易于理解。在分布式广播流中，传统的视频处理和编码已经可以为多个设备推流，然而在深度学习的帮助下，可以为更加庞大数量的设备推流。然而，对于深度学习内部算法的不理解可能会导致无法预料的场景出现。为了防止这类情况出现，应该去尝试解读并理解这些深度学习黑盒内部的行为。深度学习可解读性帮助我们理解计算机训练时学习的内容与关系，而这种关系是与训练目的，网络的设计和应用十分相关的。在Luka的工作中，深度学习可读性不仅可以理解网络的结构，也可以找到为了降低复杂度所需要的算法。只要可以找到确定AI所学习到的内容之后，就从与其相关的内容中找到一个最优的，但是低复杂度的解决方案。

Luka把深度学习中的全连接层替换为了帧内预测，卷积层替换为帧间预测，把复杂网络分支简化应用于色度预测中，来使其变得透明，可以解读且高效。相比之下，简化的计算模块需要非常少的参数，更易于投入生产实现，更省资源，更持久且更可预测。