首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

ICCV 2023 | AdaNIC:通过动态变换路由实现实用的神经图像压缩

自动编码器的特定变体,即压缩自动编码器(CAE),已成为神经图像压缩中流行的架构选择。采用CAE学习图像信号的紧凑非线性表示取得了巨大成功,与现有的编解码器相比,产生了相当甚至更优的率失真性能。之前的研究工作已经证明,CAE的规模与图像质量或比特率高度相关。在这种情况下,经过充分研究的信道修剪方法可能适合复杂性缓解的需要。当使用信道修剪方法去除部分信道时,过度的信道修剪可能导致率失真性能严重下降。因此,静态的信道修剪方式可能不适合进一步的率失真复杂度优化。具体结果可见图1,对于三张不同的输入图像,直接将潜在变量的通道数由192裁剪为176。深色圆点代表了原始的率失真表现,浅色圆点代表裁剪后的率失真表现。可以看到,三张图像表现出了不同的下降趋势,但复杂度的降低是一致的。更进一步的,箭头代表不同图像块的率失真表现,可以发现,同一图像的不同图像块也会有不同的率失真下降趋势。因此,这种通道裁剪方法需要更细粒度的划分,而不仅仅是作用在整张图像上。此外,作者希望研究一种动态路由解决方案,以探索率失真和复杂度的联合优化。因为,在运行时使用内容自适应优化能实现最大的系统吞吐量。由于动态路由的作用空间被设计为样本或区域自适应,因此它可以无缝集成到其他可行的解决方案中,以加速神经非线性变换,从而产生静态轻量级模型,并通过联合优化提高其性能。这种动态路由方法在运行时做出编码决策,这类似于现代图像/视频编码标准通常采用的传统RDO过程或快速算法。这种运行时权衡可以带来更大的灵活性,从而通过定制行为实现更好的速率失真或复杂性权衡。

01
您找到你想要的搜索结果了吗?
是的
没有找到

CVPR 2018 | Spotlight 论文:非参数化方法实现的极端无监督特征学习

选自arXiv 机器之心编译 参与:乾树、刘晓坤 本研究受监督学习中的输出排序的启发,指出数据本身的表面相似性而非语义标签,使得某些类比其他类更加接近。研究者据此提出了一种极端化的无监督学习方法,主要特点是非参数化训练、实例级判别(一个实例视为一个类)。在 ImageNet 上的实验结果表明,该方法在图像分类方面远超过最先进的无监督方法。若有更多的训练数据和更好的网络架构,该算法会持续提高测试结果。 深度神经网络,特别是卷积神经网络(CNN)的兴起,在计算机视觉领域取得了若干突破。大多数成功的模型都是通过监

03

实现一个h264编码器前期准备

H264是新一代的编码标准,以高压缩高质量和支持多种网络的流媒体传输著称,在编码方面,我理解的他的理论依据是:参照一段时间内图像的统计结果表明,在相邻几幅图像画面中,一般有差别的像素只有10%以内的点,亮度差值变化不超过2%,而色度差值的变化只有1%以内。所以对于一段变化不大图像画面,我们可以先编码出一个完整的图像帧A,随后的B帧就不编码全部图像,只写入与A帧的差别,这样B帧的大小就只有完整帧的1/10或更小!B帧之后的C帧如果变化不大,我们可以继续以参考B的方式编码C帧,这样循环下去。这段图像我们称为一个序列(序列就是有相同特点的一段数据),当某个图像与之前的图像变化很大,无法参考前面的帧来生成,那我们就结束上一个序列,开始下一段序列,也就是对这个图像生成一个完整帧A1,随后的图像就参考A1生成,只写入与A1的差别内容。

04

NIPS 2018 | 行人重识别告别辅助姿势信息,商汤、中科大提出姿势无关的特征提取GAN

行人重识别(reID)是一项极具挑战性的任务,该任务以在多个摄像头拍摄出来的图像中识别相同行人为目标。随着深度学习方法的广泛使用,reID 的性能借助不同的算法得到快速提高。在用深度神经网络学习表征的问题上大家做了各种尝试,但姿势变化、图像模糊以及目标遮挡等问题仍对学习判别式特征提出了巨大的挑战。解决这些问题有两类方法,对齐行人图像 [1] 或通过学习身体区域的特征整合行人的姿势信息 [2]。但这些工作在推断阶段也需要辅助的姿势信息,这样就限制了算法在没有姿势信息的情况下泛化新图像的能力。与此同时,由于对姿势估计的推断更复杂了,计算成本也随之增加。

02

光动嘴就能玩原神!用AI切换角色,还能攻击敌人,网友:“绫华,使用神里流·霜灭”

大数据文摘出品 作者:原神长期长草玩家 说到这两年风靡全球的国产游戏,原神肯定是当仁不让。 根据5月公布的本年度Q1季度手游收入调查报告,在抽卡手游里《原神》以5.67亿美金的绝对优势稳稳拿下第一,这也宣告《原神》在上线短短18个月之后单在手机平台总收入就突破30亿美金(大约RM130亿)。 如今,开放须弥前最后的2.8海岛版本姗姗来迟,在漫长的长草期后终于又有新的剧情和区域可以肝了。 不过不知道有多少“肝帝”,现在海岛已经满探索,又开始长草了。 宝箱总共182个+1个摩拉箱(不计入) 长草期根本没

02

宇耀生物 Brief. Bioinform. | 化学结构感知的分子图像表示学习

近日,宇耀生物与湖南大学DrugAI团队在国际生物信息学期刊《Briefings in Bioinformatics》上发表的研究论文“Chemical structure-aware molecular image representation learning”。当前基于分子图像的药物发现方法面临两个主要挑战:(1)怎样解决分子数据标签不足的问题,以及(2)如何从隐式编码图像中捕获化学结构信息。考虑到化学结构可由分子图明确编码(例如氮、苯环和双键),作者提出了一种用于分子表示学习的对比图-图像(Graph-Image)预训练框架(CGIP),该框架利用自监督对比学习将化学知识从图转移到图像中。通过精心设计的模态内和模态间对比学习,CGIP可以从大规模未标记分子中学习图中的显式信息和图像中的隐式信息。作者在多个实验设置(分子性质预测、跨模态检索和分布相似性)上评估了 CGIP的性能,结果表明 CGIP 在 12 个基准数据集上实现最先进的性能,并证明了CGIP 能够将图中的化学知识迁移到分子图像中,使图像编码器能够感知图像中的化学结构信息。

01
领券