多模态大语言模型(MLLMs)近期展现出卓越的推理能力,但进一步提升模型性能需要高质量视觉语言数据集,其标注成本高昂且难以扩展。现有自改进模型虽能迭代优化,但仍面临两大挑战:(1)视觉与文本数据分别增强导致复杂度不匹配(如过于简化的图表配冗余文本);(2)数据与模型进化分离造成任务难度与模型能力失配。
提出C2-Evo自动闭环自改进框架,通过双循环机制协同进化训练数据与模型能力:
该方法在多个数学推理基准测试中持续获得显著性能提升。代码、模型与数据集将公开。
主题分类:计算机视觉与模式识别(cs.CV);计算与语言(cs.CL);机器学习(cs.LG)
引用信息:arXiv:2507.16518 cs.CV
版本记录:v1提交于2025年7月22日,v2修订于2025年7月29日
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。