首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >C-RADIOv4:统一三大模型的视觉骨干技术

C-RADIOv4:统一三大模型的视觉骨干技术

原创
作者头像
用户11764306
发布2026-02-12 18:12:31
发布2026-02-12 18:12:31
140
举报

技术概述

某机构推出的 C-RADIOv4 是一种新型聚合式视觉骨干网络,通过将三个强教师模型——SigLIP2-g-384、DINOv3-7B 和 SAM3——蒸馏至单个学生编码器中,实现了模型统一。该方法延续了 AM-RADIO 和 RADIOv2.5 的技术路线,在保持相近计算成本的同时,提升了密集预测质量、分辨率鲁棒性,并与 SAM3 实现即插即用兼容。

核心思路简洁:不再需要在视觉语言模型、自监督密集模型和分割模型之间做选择,而是用一个骨干网络同时逼近三者。

RADIO 中的聚合蒸馏技术

RADIO 系列采用聚合蒸馏技术。单个 ViT 风格的学生网络接受训练,同时匹配多个异构教师网络的密集特征图和总结令牌。

早期的 RADIO 模型整合了 DFN CLIP、DINOv2 和 SAM。虽已支持多分辨率训练,但存在“模式切换”问题——即输入分辨率变化时,表征质量会发生质性改变。后续工作如 PHI-S、RADIOv2.5 和 FeatSharp 增强了多分辨率蒸馏与正则化,但教师集仍受限。

C-RADIOv4 升级了教师模型:

  • SigLIP2-g-384:强化图文对齐能力
  • DINOv3-7B:提供高质量自监督密集特征
  • SAM3:提供面向分割的特征,并保证与 SAM3 解码器兼容

学生模型的训练目标:其密集特征匹配 DINOv3 与 SAM3,总结令牌匹配 SigLIP2 与 DINOv3。由此训练出的单一编码器,可同时支持分类、检索、密集预测与分割任务。

随机多分辨率训练

C-RADIOv4 采用随机多分辨率训练策略,而非固定的小分辨率集合。

训练样本的输入尺寸从两个分区中随机采样:

  • 低分辨率:{128, 192, 224, 256, 384, 432}
  • 高分辨率:{512, 768, 1024, 1152}

SigLIP2 原生工作在 384 像素。其特征通过 FeatSharp 进行 3 倍上采样,以对齐 1152 像素的 SAM3 特征。SAM3 则在 1152×1152 分辨率下采用马赛克增强进行训练。

此设计平滑了模型在不同分辨率下的性能曲线,并改善了低分辨率行为。以 ADE20k 线性探测任务为例,C-RADIOv4-H 达到:

  • 512 px:约 55.20 mIoU
  • 1024 px:约 57.02 mIoU
  • 1536 px:约 57.72 mIoU

该缩放趋势接近 DINOv3-7B,但参数量仅为其约十分之一。

移位等变损失与MESA机制去除教师噪声

从大型视觉模型蒸馏往往会复制其伪影,而不仅是有效结构。SigLIP2 存在边界噪声模式,ViTDet 风格模型则可能产生窗口边界伪影。直接回归特征会迫使学生模型复现这些模式。

C-RADIOv4 引入两种移位等变机制以抑制此类噪声:

  1. 移位等变密集损失:每位教师与学生均观察同一图像的独立移位裁剪版本。计算平方误差前,通过移位映射对齐特征,损失仅作用于重叠空间位置。由于学生模型从未见过与教师相同的绝对位置,它无法直接记忆位置固定的噪声,被迫学习输入依赖的结构。
  2. 移位等变 MESA:C-RADIOv4 还在在线网络与其 EMA 副本间应用 MESA 风格正则化。同样,学生与其 EMA 观察不同裁剪,通过移位对齐特征,并在层归一化后计算损失。该方法在鼓励平滑损失景观与鲁棒性的同时,保持了对绝对位置的不变性。

此外,训练过程采用 DAMP 技术,向权重注入乘性噪声,进一步提升了模型对数据损坏及小分布偏移的鲁棒性。

角分散感知的总结损失实现教师平衡

先前 RADIO 模型的总结损失使用学生与教师嵌入间的余弦距离。余弦距离虽去除了模长信息,但无法处理球面上的方向分散问题。部分教师(如 SigLIP2)生成的嵌入集中在一个窄锥区内,而 DINOv3 变体生成的嵌入则更为分散。

若直接使用原始余弦距离,角分散更宽的教师会产生更大的损失,从而主导优化过程。实践中,DINOv3 常在总结项中压制 SigLIP2。

C-RADIOv4 以角度归一化损失替代原有方案。学生与教师嵌入间的夹角平方值,除以该教师自身的角分散度。测量显示,SigLIP2-g-384 分散度约为 0.694,DINOv3-H+ 与 DINOv3-7B 则分别约为 2.12 和 2.19。通过分散度归一化,均衡了不同教师的影响力,同时保留了视觉语言语义与密集语义。

性能表现:分类、密集预测与 Probe3d

在 ImageNet-1k 零样本分类任务中,C-RADIOv4-H 达到约 83.09% 的 top-1 准确率。在不同分辨率下,其表现优于或持平 RADIOv2.5-H 与 C-RADIOv3-H,最佳性能出现在 1024 px 附近。

在 k-NN 分类任务中,C-RADIOv4-H 相较 RADIOv2.5 与 C-RADIOv3 均有提升,并在约 256 px 起与 DINOv3 相当或更优。DINOv3 在 192–256 px 达到峰值后性能下降,而 C-RADIOv4 在高分辨率下仍保持稳定或持续提升。

密集与 3D 感知指标呈现出预期的权衡效果。在 ADE20k、PASCAL VOC、NAVI 与 SPair 等密集基准上,C-RADIOv4-H 及 SO400M 变体优于早期 RADIO 模型,并与 DINOv3-7B 具有竞争力。C-RADIOv4-H 典型得分如下:

  • ADE20k:55.20 mIoU
  • VOC:87.24 mIoU
  • NAVI:63.44
  • SPair:60.57

在包含深度法向、表面法向、NAVI 与 SPair 的 Probe3d 评估中,C-RADIOv4-H 取得了 RADIO 系列中最佳的 NAVI 与 SPair 分数。深度与表面指标接近 C-RADIOv3-H,各有小幅优劣,并非单向提升。

SAM3 集成与 ViTDet 模式部署

C-RADIOv4 专为即插即用替换 SAM3 感知编码器骨干而设计。SAM3 的解码器与记忆组件保持不变。官方已在 SAM3 分支代码库中提供参考实现。定性示例显示,无论是“鞋”、“头盔”、“自行车”、“观众”等文本提示,还是框提示,基于 C-RADIOv4 的 SAM3 均能保持原有分割行为,且在部分报告中解决了原编码器的失败案例。

部署方面,C-RADIOv4 提供 ViTDet 模式配置。多数 Transformer 块使用窗口注意力,少数使用全局注意力。支持的窗口尺寸范围为 6×6 至 32×32 令牌,需与补丁大小及图像分辨率满足整除关系。在 A100 上,窗口尺寸不超过 12 的 SO400M 模型,在多种输入尺寸下均快于 SAM3 ViT-L+ 编码器;窗口尺寸为 8 的 Huge 模型延迟与之接近。

这使得 C-RADIOv4 成为高分辨率密集任务中,因全层全局注意力成本过高而无法部署时的实用骨干方案

关键技术要点

  • 单一统一骨干:C-RADIOv4 将 SigLIP2-g-384、DINOv3-7B 与 SAM3 蒸馏至单一 ViT 风格编码器,同时支持分类、检索、密集预测与分割。
  • 任意分辨率行为:通过 {128…1152} px 的随机多分辨率训练,及针对 SigLIP2 的 FeatSharp 上采样,稳定了跨分辨率性能,以极少的参数量追踪 DINOv3-7B 的缩放规律。
  • 移位等变降噪:移位等变密集损失与移位等变 MESA 机制,防止学生模型复制教师模型的边界与窗口伪影,使学习聚焦于输入依赖的语义。
  • 均衡多教师蒸馏:角度归一化的总结损失平衡了 SigLIP2 与 DINOv3 的贡献,同时保留了对齐文本与密集表征的质量。
  • SAM3 与 ViTDet 就绪部署:C-RADIOv4 可直接替换 SAM3 感知编码器,提供 ViTDet 模式的窗口注意力以加速高分辨率推理,并依据某机构开源模型许可发布。FINISHED

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 技术概述
  • RADIO 中的聚合蒸馏技术
  • 随机多分辨率训练
  • 移位等变损失与MESA机制去除教师噪声
  • 角分散感知的总结损失实现教师平衡
  • 性能表现:分类、密集预测与 Probe3d
  • SAM3 集成与 ViTDet 模式部署
  • 关键技术要点
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档