前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >一种在终端设备上用量化和张量压缩的紧凑而精确的视频理解

一种在终端设备上用量化和张量压缩的紧凑而精确的视频理解

作者头像
计算机视觉研究院
发布2023-08-24 09:24:46
1150
发布2023-08-24 09:24:46
举报

论文地址:https://arxiv.org/pdf/1805.07935.pdf

计算机视觉研究院专栏

Column of Computer Vision Institute

由于在视频检测和分类中暴露于高维输入时需要大量参数,因此在终端设备上开发紧凑但准确的视频理解是一个巨大的挑战。

01

简介

目前的工作集中在以分离的方式优化视频检测和分类。在今天分享中,我们介绍了一个用于终端设备的视频理解(目标检测和动作识别)系统,即DEEPEYE。在YOLO(You Only Look Once)的基础上,开发了一种训练YOLO时的8位量化方法;并开发了由YOLO中提取的特征组成的递归神经网络(RNN)的张量压缩方法。所开发的量化和张量化可以在保持精度的情况下显著压缩原始网络模型。以具有挑战性的视频数据集MOMENTS和UCF11为基准,结果表明,所提出的DEEPEYE实现了3.994×模型压缩率,仅降低了0.47%的mAP;参数减少15.047倍,加速2.87倍,精度提高16.58%。

02

背景

此外,YOLO最初是为从图像中检测物体而设计的。目前还不知道如何将其扩展到视频数据分析中,如目标检测和动作识别。递归神经网络(RNN)将其应用于视频数据的序列间建模,取得了巨大的成就。然而,视频数据的高维输入使得从输入到隐藏层的权重矩阵映射非常大,阻碍了RNN的应用。最近的工作利用CNN来预处理所有视频帧,由于没有进行端到端训练,这些视频帧可能会受到次优权重参数的影响。其他工作试图减少RNN的序列长度,忽略了RNN处理可变长度序列的能力。因此,它无法缩放以获得更大、更逼真的视频数据。有些方法使用原始帧输入通过张量化压缩RNN,这导致了有限的准确性和可扩展性。

在我们分享中,研究者开发了一个RNN框架,使用从YOLO中提取的特征来分析视频数据。针对终端设备上的应用,进一步开发了YOLO的8位量化以及RNN的张量压缩。所开发的量化和张量化可以在保持精度的情况下显著压缩原始网络模型。此外,将上述两个优化后的网络集成到一个视频理解系统中,如上图所示。在几个基准测试上的实验结果表明,所提出的DEEPEYE框架可以实现3.994倍的压缩,仅降低0.47%的mAP;参数减少1500047倍,加速2.87倍,精度提高16.58%。

Basics of YOLO

YOLO将目标检测重新定义为一个信号回归问题,直接从每帧的图像像素到边界框坐标和类概率。卷积网络同时预测多个边界框和这些框的类概率。与传统的物体检测方法相比,YOLO有几个优点,因为它在全图像上训练并直接优化检测性能。

8-bit-quantized YOLO

视频规模数据的直接YOLO实现将需要大量且不必要的软件和硬件资源。[Dorefa-net: Training low bitwidth convolutional neural networks with low bitwidth gradients]中的先前工作建议在训练过程中使用量化约束的神经网络。我们将讨论如何生成具有8位量化的YOLO模型(即Q-YOLO)。

还开发了一种具有量化的激活,它将实数特征映射a∈[0,1]量化为8位特征映射a q∈[0,1]。该策略定义如下:

8位权重和特征图的详细分布如上图所示。有了量化的权重和特征图,我们可以得到假设的量化卷积:

Q-YOLO模型的总体工作流程如上图所示,网络假设为前馈线性拓扑。我们可以观察到,卷积层中所有昂贵的操作都是在8位量化上操作的。批处理规范化层和最大池化层也被量化为8位。

03

详解

Tensorized RNN

以前对RNN的神经网络压缩是通过精度比特截断或低秩近似来执行的,这不能在网络压缩和网络精度之间保持良好的平衡。我们将讨论在训练过程中基于张量化的RNN。对隐藏到隐藏权重进行张量化的整个工作流程如上图所示。由于上等式中的上述分解,计算乘法复杂度原来是O(dr^2n_m),而不是O(n^d),其中r是核的最大秩Gk,nm是张量W的最大模大小mk·nk。这将是更高的压缩和更高效的,因为与传统全连接层的一般矩阵向量乘法相比,秩r非常小。

DEEPEYE不是以单独的方式优化视频检测和分类,而是第一种利用目标检测和动作识别以及显著优化的方法。由于整个系统通过量化和张量化进行了高度压缩,因此它在压缩、加速和节省资源方面有着更好的性能,尤其是在应用于视频理解任务时。如上图所示,实验的存储成本从63.5MB压缩到15.9MB,参数数量从5898200减少到3920,所提出的Q-YOLO的详细层模型如下表所示:

04

实验及可视化

(a) person, (b) bicycle and (c) cat

Visual results of DEEPEYE on MOMENTS dataset

转载请联系本公众号获得授权

往期推荐

🔗

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-07-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 计算机视觉战队 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
视频理解
视频理解是基于腾讯领先的 AI 技术和丰富的内容运营经验,对视频内容输出涵盖人物、场景、物体、事件的高精度、多维度的优质标签内容。通过对视频内容进行细粒度的结构化解析,应用于媒资系统管理、素材检索、内容运营等业务场景中。其中一款产品是媒体智能标签(Intelligent Media Label Detection)
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档