某机构推出的 C-RADIOv4 是一种新型聚合式视觉骨干网络,通过将三个强教师模型——SigLIP2-g-384、DINOv3-7B 和 SAM3——蒸馏至单个学生编码器中,实现了模型统一。该方法延续了 AM-RADIO 和 RADIOv2.5 的技术路线,在保持相近计算成本的同时,提升了密集预测质量、分辨率鲁棒性,并与 SAM3 实现即插即用兼容。
核心思路简洁:不再需要在视觉语言模型、自监督密集模型和分割模型之间做选择,而是用一个骨干网络同时逼近三者。
RADIO 系列采用聚合蒸馏技术。单个 ViT 风格的学生网络接受训练,同时匹配多个异构教师网络的密集特征图和总结令牌。
早期的 RADIO 模型整合了 DFN CLIP、DINOv2 和 SAM。虽已支持多分辨率训练,但存在“模式切换”问题——即输入分辨率变化时,表征质量会发生质性改变。后续工作如 PHI-S、RADIOv2.5 和 FeatSharp 增强了多分辨率蒸馏与正则化,但教师集仍受限。
C-RADIOv4 升级了教师模型:
学生模型的训练目标:其密集特征匹配 DINOv3 与 SAM3,总结令牌匹配 SigLIP2 与 DINOv3。由此训练出的单一编码器,可同时支持分类、检索、密集预测与分割任务。
C-RADIOv4 采用随机多分辨率训练策略,而非固定的小分辨率集合。
训练样本的输入尺寸从两个分区中随机采样:
SigLIP2 原生工作在 384 像素。其特征通过 FeatSharp 进行 3 倍上采样,以对齐 1152 像素的 SAM3 特征。SAM3 则在 1152×1152 分辨率下采用马赛克增强进行训练。
此设计平滑了模型在不同分辨率下的性能曲线,并改善了低分辨率行为。以 ADE20k 线性探测任务为例,C-RADIOv4-H 达到:
该缩放趋势接近 DINOv3-7B,但参数量仅为其约十分之一。
从大型视觉模型蒸馏往往会复制其伪影,而不仅是有效结构。SigLIP2 存在边界噪声模式,ViTDet 风格模型则可能产生窗口边界伪影。直接回归特征会迫使学生模型复现这些模式。
C-RADIOv4 引入两种移位等变机制以抑制此类噪声:
此外,训练过程采用 DAMP 技术,向权重注入乘性噪声,进一步提升了模型对数据损坏及小分布偏移的鲁棒性。
先前 RADIO 模型的总结损失使用学生与教师嵌入间的余弦距离。余弦距离虽去除了模长信息,但无法处理球面上的方向分散问题。部分教师(如 SigLIP2)生成的嵌入集中在一个窄锥区内,而 DINOv3 变体生成的嵌入则更为分散。
若直接使用原始余弦距离,角分散更宽的教师会产生更大的损失,从而主导优化过程。实践中,DINOv3 常在总结项中压制 SigLIP2。
C-RADIOv4 以角度归一化损失替代原有方案。学生与教师嵌入间的夹角平方值,除以该教师自身的角分散度。测量显示,SigLIP2-g-384 分散度约为 0.694,DINOv3-H+ 与 DINOv3-7B 则分别约为 2.12 和 2.19。通过分散度归一化,均衡了不同教师的影响力,同时保留了视觉语言语义与密集语义。
在 ImageNet-1k 零样本分类任务中,C-RADIOv4-H 达到约 83.09% 的 top-1 准确率。在不同分辨率下,其表现优于或持平 RADIOv2.5-H 与 C-RADIOv3-H,最佳性能出现在 1024 px 附近。
在 k-NN 分类任务中,C-RADIOv4-H 相较 RADIOv2.5 与 C-RADIOv3 均有提升,并在约 256 px 起与 DINOv3 相当或更优。DINOv3 在 192–256 px 达到峰值后性能下降,而 C-RADIOv4 在高分辨率下仍保持稳定或持续提升。
密集与 3D 感知指标呈现出预期的权衡效果。在 ADE20k、PASCAL VOC、NAVI 与 SPair 等密集基准上,C-RADIOv4-H 及 SO400M 变体优于早期 RADIO 模型,并与 DINOv3-7B 具有竞争力。C-RADIOv4-H 典型得分如下:
在包含深度法向、表面法向、NAVI 与 SPair 的 Probe3d 评估中,C-RADIOv4-H 取得了 RADIO 系列中最佳的 NAVI 与 SPair 分数。深度与表面指标接近 C-RADIOv3-H,各有小幅优劣,并非单向提升。
C-RADIOv4 专为即插即用替换 SAM3 感知编码器骨干而设计。SAM3 的解码器与记忆组件保持不变。官方已在 SAM3 分支代码库中提供参考实现。定性示例显示,无论是“鞋”、“头盔”、“自行车”、“观众”等文本提示,还是框提示,基于 C-RADIOv4 的 SAM3 均能保持原有分割行为,且在部分报告中解决了原编码器的失败案例。
部署方面,C-RADIOv4 提供 ViTDet 模式配置。多数 Transformer 块使用窗口注意力,少数使用全局注意力。支持的窗口尺寸范围为 6×6 至 32×32 令牌,需与补丁大小及图像分辨率满足整除关系。在 A100 上,窗口尺寸不超过 12 的 SO400M 模型,在多种输入尺寸下均快于 SAM3 ViT-L+ 编码器;窗口尺寸为 8 的 Huge 模型延迟与之接近。
这使得 C-RADIOv4 成为高分辨率密集任务中,因全层全局注意力成本过高而无法部署时的实用骨干方案。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。