一种在终端设备上用量化和张量压缩的紧凑而精确的视频理解

计算机视觉研究院

发布于 2023-08-24 09:24:46

1350

发布于 2023-08-24 09:24:46

文章被收录于专栏：计算机视觉战队

论文地址：https://arxiv.org/pdf/1805.07935.pdf

计算机视觉研究院专栏

Column of Computer Vision Institute

由于在视频检测和分类中暴露于高维输入时需要大量参数，因此在终端设备上开发紧凑但准确的视频理解是一个巨大的挑战。

01

简介

目前的工作集中在以分离的方式优化视频检测和分类。在今天分享中，我们介绍了一个用于终端设备的视频理解（目标检测和动作识别）系统，即DEEPEYE。在YOLO（You Only Look Once）的基础上，开发了一种训练YOLO时的8位量化方法；并开发了由YOLO中提取的特征组成的递归神经网络（RNN）的张量压缩方法。所开发的量化和张量化可以在保持精度的情况下显著压缩原始网络模型。以具有挑战性的视频数据集MOMENTS和UCF11为基准，结果表明，所提出的DEEPEYE实现了3.994×模型压缩率，仅降低了0.47%的mAP；参数减少15.047倍，加速2.87倍，精度提高16.58%。

02

背景

此外，YOLO最初是为从图像中检测物体而设计的。目前还不知道如何将其扩展到视频数据分析中，如目标检测和动作识别。递归神经网络（RNN）将其应用于视频数据的序列间建模，取得了巨大的成就。然而，视频数据的高维输入使得从输入到隐藏层的权重矩阵映射非常大，阻碍了RNN的应用。最近的工作利用CNN来预处理所有视频帧，由于没有进行端到端训练，这些视频帧可能会受到次优权重参数的影响。其他工作试图减少RNN的序列长度，忽略了RNN处理可变长度序列的能力。因此，它无法缩放以获得更大、更逼真的视频数据。有些方法使用原始帧输入通过张量化压缩RNN，这导致了有限的准确性和可扩展性。

在我们分享中，研究者开发了一个RNN框架，使用从YOLO中提取的特征来分析视频数据。针对终端设备上的应用，进一步开发了YOLO的8位量化以及RNN的张量压缩。所开发的量化和张量化可以在保持精度的情况下显著压缩原始网络模型。此外，将上述两个优化后的网络集成到一个视频理解系统中，如上图所示。在几个基准测试上的实验结果表明，所提出的DEEPEYE框架可以实现3.994倍的压缩，仅降低0.47%的mAP；参数减少1500047倍，加速2.87倍，精度提高16.58%。

Basics of YOLO

YOLO将目标检测重新定义为一个信号回归问题，直接从每帧的图像像素到边界框坐标和类概率。卷积网络同时预测多个边界框和这些框的类概率。与传统的物体检测方法相比，YOLO有几个优点，因为它在全图像上训练并直接优化检测性能。

8-bit-quantized YOLO

视频规模数据的直接YOLO实现将需要大量且不必要的软件和硬件资源。[Dorefa-net: Training low bitwidth convolutional neural networks with low bitwidth gradients]中的先前工作建议在训练过程中使用量化约束的神经网络。我们将讨论如何生成具有8位量化的YOLO模型（即Q-YOLO）。

还开发了一种具有量化的激活，它将实数特征映射a∈[0,1]量化为8位特征映射a q∈[0，1]。该策略定义如下：

8位权重和特征图的详细分布如上图所示。有了量化的权重和特征图，我们可以得到假设的量化卷积：

Q-YOLO模型的总体工作流程如上图所示，网络假设为前馈线性拓扑。我们可以观察到，卷积层中所有昂贵的操作都是在8位量化上操作的。批处理规范化层和最大池化层也被量化为8位。

03

详解

Tensorized RNN

以前对RNN的神经网络压缩是通过精度比特截断或低秩近似来执行的，这不能在网络压缩和网络精度之间保持良好的平衡。我们将讨论在训练过程中基于张量化的RNN。对隐藏到隐藏权重进行张量化的整个工作流程如上图所示。由于上等式中的上述分解，计算乘法复杂度原来是O（dr^2n_m），而不是O（n^d），其中r是核的最大秩Gk，nm是张量W的最大模大小mk·nk。这将是更高的压缩和更高效的，因为与传统全连接层的一般矩阵向量乘法相比，秩r非常小。

DEEPEYE不是以单独的方式优化视频检测和分类，而是第一种利用目标检测和动作识别以及显著优化的方法。由于整个系统通过量化和张量化进行了高度压缩，因此它在压缩、加速和节省资源方面有着更好的性能，尤其是在应用于视频理解任务时。如上图所示，实验的存储成本从63.5MB压缩到15.9MB，参数数量从5898200减少到3920，所提出的Q-YOLO的详细层模型如下表所示：