
在追求模型规模的竞赛中,一个反直觉的事实正在发生:NVIDIA 的 C-RADIOv4 仅用 6.31 亿个参数就达到了 DINOv3 的 70 亿参数模型的性能。多教师蒸馏技术,正在彻底改变我们构建通用视觉模型的思路。
就在最近,这个技术路径下的明星家族迎来了它的第四次重大进化——C-RADIOv4 正式发布。
与其从零开始训练一个“天才”,不如让它同时拜几位顶尖大师为师。这次,它请来的老师阵容堪称豪华:文本理解高手 SigLIP2、自监督学习标杆 DINOv3,以及那个能“分割万物”的 SAM3。三位老师,三种绝活,而 C-RADIOv4 要做的,就是融会贯通。
模型的进化,往往始于“向谁学习”。上一代模型还在向 DFN CLIP、DINOv2 和初代 SAM 取经,这一次,团队直接换上了最新一代的强者。
SigLIP2 带来了更精准的图文对齐能力,DINOv3 在语义理解和密集预测上几乎做到了极致。而 SAM3 的加入,则打开了一扇新的大门——它让 C-RADIOv4 获得了直接替换 SAM3 视觉主干的能力。这意味着,你可以用这个统一的模型,去驱动那些需要分割、识别、理解的全栈任务。
有意思的是,团队发现,SAM3 本身在某些标准测试集上并未带来直接的分数提升。但它的价值在于“可能性”。就像给一辆车换上了更高效的引擎,整个系统的潜力被重新定义了。
拜师学艺,最怕学歪了。如果老师有些无意识的小动作或习惯,学生一味模仿,反而会走弯路。
研究者们发现,之前的视觉基础模型,包括那些顶尖的“老师”,其输出中其实藏着一些“固定模式噪声”。这些噪声与图像内容无关,更像是模型结构自带的一种印记。如果学生模型照单全收,它的“思考”就会被污染。
C-RADIOv4 用了一招巧妙的“移位学习法”。在训练时,随机地对输入学生和各位老师的图像进行独立的裁剪偏移。这样一来,学生无法通过简单对齐像素位置来模仿老师,它被迫去理解图像背后更本质的、那些不随位置改变的语义信息。

另一个棘手的问题是,老师们“讲课”的力度不一样。DINOv3 这样的老师,个性强烈,输出的特征分布范围很广;而 SigLIP2 则相对内敛。如果不加调节,学生很容易被声音大的老师吸引,而忽略了其他。
为此,团队重新设计了“平衡摘要损失”。简单说,就是给每位老师的“音量”装上一个调节器,确保来自每一位的指导都能被公平地聆听和吸收。

这张表量化了不同老师的“个性”差异。平衡它们,是模型博采众长的关键。
那么,学成出师的 C-RADIOv4,本事如何?
在零样本图像分类任务上,它终于实现了对前代模型的全面超越。尤其让人印象深刻的是,在低分辨率图像上,它的识别能力大幅提升——这在实际应用中价值巨大,毕竟不是每张传入系统的图片都是高清大图。

曲线说明了一切。C-RADIOv4(深色线)在从低到高的各种分辨率下,都保持了强劲且平滑的性能。
更能体现其“内功”深厚的,是 k-NN 分类测试。在这个任务中,模型无法依赖额外的训练,只能纯粹依靠自己学到的特征质量来进行判断。结果,参数量仅 6.31 亿的 C-RADIOv4-H,从某个分辨率开始,竟然能媲美参数量高达 70 亿的 DINOv3-7B。

这或许可以称之为“效率的胜利”。用十分之一的参数,达到相近的深度特征质量,C-RADIOv4展示了聚合蒸馏路径的惊人潜力。
如果说前面的测试是“期末考试”,那么接下来的应用就是“毕业实习”。C-RADIOv4 被直接放进 SAM3 的框架里,替换掉原来的视觉编码器。
效果如何?无论是 SAM3 官方演示中的复杂场景,还是用户自定义的图片和文本指令,C-RADIOv4 都能从容应对,生成高质量的分割掩码。它证明了自己不仅是一个好学生,更能成为一个可靠的“替代者”。

图6:替换骨干后,分割效果几乎与原版一致。

图7:响应文本查询“骑行的人”,模型准确地分离出了目标。
更戏剧性的是,它甚至修复了 SAM3 的一个“小毛病”。在 SAM3 的官方 Demo 中,用“person”作为查询词有时会失效。而换上 C-RADIOv4 作为主干后,这个问题神奇地消失了。这或许是因为,不同模型学习到的“人”这个概念,存在微妙的、却足以影响决策边界的差异。

一个小小的词语,揭示了模型内部表示世界的细微不同。
在真实世界里跑模型,效率永远是绕不开的话题。面对高分辨率图像,传统的全局注意力机制会带来惊人的计算开销。
C-RADIOv4 这次带来了一个实用功能:“ViTDet模式”。你可以把它理解为,让模型的大部分“思考”过程,在一个个局部“窗口”内进行,只留出少数几层进行全局统筹。这一改动,对推理速度的影响是决定性的。

随着分辨率飙升,启用ViTDet模式(实线)的延迟增长要温和得多。
具体有多快?以较小的 SO400M 模型为例,当窗口尺寸设置不大于12时,它的编码速度甚至超过了 SAM3 原装的 ViT-L+ 编码器。

在图中的高分辨率区间,C-RADIOv4的曲线已然位于SAM3之下,实现了反超。
从融合多位大师的智慧,到克服学习中的噪声与偏见,再到实战中展现的通用性与高效率,C-RADIOv4 的旅程,像极了一个天赋异禀且善于学习者的成长故事。
它发布的不仅是两个模型(SO400M 和 H),更传递了一种构建通用视觉模型的可行思路:在巨人的肩膀上,进行清醒的、批判性的学习。当 AI 模型越来越庞大,这种追求“更少参数,更多能力,更高效率”的尝试,或许正指向下一个值得期待的方向。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。