首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

用于机器视觉任务的图像压缩前处理

最近,越来越多的图像被压缩并发送到后端设备进行机器视觉分析任务(例如目标检测),而不仅仅是供人类观看。然而,大多数传统的或可学习的图像编解码器都是最小化人类视觉系统的失真,而没有考虑到机器视觉系统的需求。在这项工作中,我们提出了一种用于机器视觉任务的图像压缩前处理方法。我们的框架不依赖于可学习的图像编解码器,而是可用于传统的非可微分编解码器,这意味着它与编码标准兼容,并且可以轻松部署在实际应用中。具体而言,我们在编码器之前增加一个神经网络前处理模块,用于保留对下游任务有用的语义信息并抑制无关信息以节省比特率。此外,我们的神经网络前处理模块是量化自适应的,可以在不同的压缩比下使用。更重要的是,为了联合优化前处理模块和下游机器视觉任务,我们在反向传播阶段引入了传统非可微分编解码器的代理网络。我们在几个具有不同骨干网络的代表性下游任务上进行了广泛的实验。实验结果表明,我们的方法通过节省约20%的比特率,在编码比特率和下游机器视觉任务性能之间取得了更好的权衡。

06

失真对编码性能的影响研究

近几年来,视频流的技术环境发生了巨大的变化,互联网上的视频流量急剧增加。根据 Cisco 公司的报告的预测,视频流量将超过整个互联网使用量的 80%。这也使得人们对视频流和实时视频通信应用中的视频压缩的比特率与质量的权衡关系产生了更大的兴趣。然而这些编解码器在实际系统中的实际部署表明,还有其他考虑因素进一步限制了编解码器的性能,例如设备上的资源、云中的计算资源和 CDN(内容交付网络)中不同服务器之间的带宽。尤其是转码已经成为流媒体和通信生态系统的一个关键设备,使 Netflix、YouTube、Zoom、微软、Tiktok 和 Facebook 的视频应用成为可能。用户生成内容(UGC)的流媒体的一个主要问题是失真的影响,如噪音、曝光/光线和相机抖动。对于 UGC,这些失真通常会导致比特率提高,图片质量降低。

03
领券