首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

蔡砚刚:uAVS3对标x265 veryslow将节省30%码率

蔡砚刚:大家好,我是蔡砚刚,来自深圳市优微视觉科技有限公司,也是一名在音视频领域摸爬滚打多年的老兵。目前主要负责优微视觉的前进方向以及主持公司的日常业务活动。在这里我更期望先介绍一下我们的团队,我们团队核心成员均出自北京大学数字视频编解码技术国家工程实验室:有在北大学习工作十六载并持续优化编解码器的王振宇,有在腾讯工作过的韩冰杰,有在人民银行工作过的李旭峰,我本人曾在阿里、快手等公司工作过。“十年磨一剑,霜刃未曾试。今日把示君,谁有不平事。”经过大家十年间的持续积累与摸索,我们拥有了自己的u264、u265、uavs、uavs+、uavs2、uavs3等编解码器,并且我们的内核也普遍应用到广电与互联网领域。

08

SLBR通过自校准的定位和背景细化来去除可见的水印

本文简要介绍了论文“Visible Watermark Removal via Self-calibrated Localization and Background Refinement ”的相关工作。在图像上叠加可见的水印,为解决版权问题提供了一种强大的武器。现代的水印去除方法可以同时进行水印定位和背景恢复,这可以看作是一个多任务学习问题。然而,现有的方法存在水印检测不完整和恢复背景的纹理质量下降的问题。因此,作者设计了一个双阶段多任务网络来解决上述问题。粗度阶段由水印分支和背景分支组成,其中水印分支对粗略估算的掩膜进行自校准,并将校准后的掩膜传递给背景分支,重建水印区域。在细化阶段,作者整合了多层次的特征来提高水印区域的纹理质量。在两个数据集上的大量实验证明了作者所提出的方法的有效性。

02

用于机器视觉任务的图像压缩前处理

最近,越来越多的图像被压缩并发送到后端设备进行机器视觉分析任务(例如目标检测),而不仅仅是供人类观看。然而,大多数传统的或可学习的图像编解码器都是最小化人类视觉系统的失真,而没有考虑到机器视觉系统的需求。在这项工作中,我们提出了一种用于机器视觉任务的图像压缩前处理方法。我们的框架不依赖于可学习的图像编解码器,而是可用于传统的非可微分编解码器,这意味着它与编码标准兼容,并且可以轻松部署在实际应用中。具体而言,我们在编码器之前增加一个神经网络前处理模块,用于保留对下游任务有用的语义信息并抑制无关信息以节省比特率。此外,我们的神经网络前处理模块是量化自适应的,可以在不同的压缩比下使用。更重要的是,为了联合优化前处理模块和下游机器视觉任务,我们在反向传播阶段引入了传统非可微分编解码器的代理网络。我们在几个具有不同骨干网络的代表性下游任务上进行了广泛的实验。实验结果表明,我们的方法通过节省约20%的比特率,在编码比特率和下游机器视觉任务性能之间取得了更好的权衡。

06

视频压缩编码技术(H.264) ——编码器和解码器

如上图所示,输入的帧或场Fn 以宏块为单位被编码器处理。首先,按帧内或帧间预测编码的方法进行处理。如果采用帧内预测编码,其预测值PRED(图中用P 表示)是由当前片中前面已编码的参考图像经运动补偿(MC)后得出,其中参考图像用F’n-1 表示。为了提高预测精度,从而提高压缩比,实际的参考图像可在过去或未来(指显示次序上)已编码解码重建和滤波的帧中进行选择。预测值PRED 和当前块相减后,产生一个残差块Dn,经块变换、量化后产生一组量化后的变换系数X,再经熵编码,与解码所需的一些边信息(如预测模式量化参数、运动矢量等)一起组成一个压缩后的码流,经NAL(网络自适应层)供传输和存储用。正如上述,为了提供进一步预测用的参考图像,编码器必须有重建图像的功能。因此必须使残差图像经反量化、反变换后得到的Dn’与预测值P 相加,得到uFn’(未经滤波的帧)。为了去除编码解码环路中产生的噪声,为了提高参考帧的图像质量,从而提高压缩图像性能,设置了一个环路滤波器,滤波后的输出Fn’即重建图像可用作参考图像。

02

AAAI|MetaDelta:一种少样本图像分类的元学习系统AAAI|MetaDelta:一种少样本图像分类的元学习系统

今天给大家介绍清华大学YudongChen等人发表在AAAI上的一篇文章 “MetaDelta:AMeta-LearningSystemforFew-shotImageClassifification” 。现有的元学习算法很少考虑未知数据集的时间和资源效率或泛化能力,这限制了它们在实际场景中的适用性。在这篇文章中,作者提出了一种新的实用的元学习系统MetaDelta,用于小镜头图像分类。MetaDelta由两个核心组件组成:(1)由中央控制器监督的多个meta-learners以确保效率,(2)一个元集成模块负责集成推理和更好的泛化。MetaDelta的每个meta-learner都由一个经过批量训练的预训练编码器和用于预测的无参数解码器组成。

05

Encoder-Decoder with Atrous SeparableConvolution for Semantic Image Segmentation

深度神经网络采用空间金字塔池化模块或编解码器结构进行语义分割。前者通过多速率、多有效视场的过滤或池化操作,能够编码多尺度背景信息;后者通过逐步恢复空间信息,能够捕获更清晰的物体边界。在本研究中,我们建议结合这两种方法的优点。具体来说,我们提出的模型DeepLabv3+扩展了DeepLabv3,通过添加一个简单但有效的解码器模块来细化分割结果,特别是沿着对象边界。我们进一步探索了Xception模型,并将深度可分离卷积应用于Atrous空间金字塔池和解码器模块,从而获得更快、更强的编码器-解码器网络。我们在PASCAL VOC 2012和Cityscapes数据集上验证了该模型的有效性,在没有任何后处理的情况下,测试集的性能分别达到了89.0%和82.1%。

02

ICCV2023 | Masked Diffusion Transformer: 增强扩散模型对上下文关系的理解

在这项工作中,我们首先观察到DPMs通常难以学习图像中物体部分之间的关联关系,导致训练过程缓慢。为了解决这个问题,提出了一种有效的掩码扩散变换器(Masked Diffusion Transformer,MDT),以提高DPMs的训练效率。MDT引入了一个蒙面潜在建模方案,专门为基于Transformer的DPMs设计,以明确增强上下文学习能力并改进图像语义之间的关联关系学习。MDT在潜在空间中进行扩散过程以节省计算成本。它对某些图像标记进行掩码,并设计了一个不对称的掩码扩散变换器(AMDT),以一种扩散生成的方式预测被掩码的标记。MDT可以从其上下文不完整的输入中重建图像的完整信息,学习图像语义之间的关联关系。

04
领券