当所有人都在追逐千亿参数的“AI军备竞赛”时,小米却用一个仅70亿参数的模型,打了一场教科书级的逆袭战。
近日,小米正式开源 MiMo-VL-7B-RL-2508 和 MiMo-VL-7B-SFT-2508 两款视觉语言模型(VLM),并在arXiv发布技术报告《MiMo-VL Technical Report》。
结果令人震惊:
★🔥 在40项任务中,击败Qwen2.5-VL-7B高达35项! 🚀 OlympiadBench得分59.4,超越高达78B参数的模型! 💻 GUI任务OSWorld-G得分56.1,甚至超过专用模型UI-TARS! 🏆 Elo评分开源第一,横跨7B到72B参数范围登顶!
这不是“差不多”,而是全面碾压。
更惊人的是:这款模型不仅能“看懂”图像和视频,还能告诉你它是怎么想的——甚至你可以命令它:“别想了,直接回答”。
今天,我们就带你逐行拆解这份技术报告,看看小米是如何用“小模型”做出“大事情”的。
维度 | 成绩 |
---|---|
MMMU | 70.6(图像理解最难测试之一) |
VideoMME | 70.8(视频理解标杆) |
OlympiadBench | 59.4(超越78B参数模型) |
OSWorld-G (GUI) | 56.1(超过专用GUI模型) |
Elo评分 | 开源VLM排名第一(7B~72B) |
社区热度 | 过去一个月下载超 1,600次(RL+SFT) |
📌 一句话概括: MiMo-VL 是目前性能最强、推理最稳、体验最佳、生态最全的7B级开源视觉语言模型。
MiMo-VL-7B-RL-2508 在多个权威基准测试中刷新纪录:
基准 | MiMo-VL-7B-RL-2508 | 对比模型 | 表现 |
---|---|---|---|
MMMU | 70.6 | Qwen2.5-VL-7B (~68) | 显著领先 |
VideoMME | 70.8 | 同级SOTA | 视频理解新高 |
OlympiadBench | 59.4 | 高达78B参数模型 | 以小博大 |
OSWorld-G | 56.1 | UI-TARS(专用GUI模型) | 通才胜专才 |
📌 特别值得注意的是: 在 40项综合任务对比中,MiMo-VL-7B-RL 超过了 Qwen2.5-VL-7B 长达35项,几乎全面压制。
★小知识:MMMU 是目前最严苛的多模态理解测试集之一,要求跨学科知识整合、复杂逻辑推理能力。70+ 的得分意味着——它真的“懂”你在问什么。
这是 MiMo-VL 最具创新性的设计——你可以控制它是否“思考”。
通过添加 /no_think
指令,用户可以在两种模式间自由切换:
模式 | 行为 | 适用场景 |
---|---|---|
✅ 思维模式(默认) | 输出完整推理过程(Chain-of-Thought) | 复杂问题、需要解释逻辑时 |
⚡ 非思维模式(加 /no_think) | 直接输出答案,不展示中间步骤 | 快速响应、简单任务 |
👉 举个例子:
★用户提问:“这张图里有什么?”
/no_think
模式:AI直接回答:“一辆红色的小米SU7轿车。”💡 这种“可调节思维”机制,极大提升了模型的灵活性和实用性——既适合教育、科研等需要透明推理的场景,也适合工业部署中追求效率的应用。
★更重要的是:实验数据显示,两种模式下的控制成功率都极高——**思考模式100%,非思考模式99.84%**,几乎不会“失控”。
除了冷冰冰的分数,小米还公布了内部 VLM Arena 评分(一种模拟真实对话场景的对抗性评测):
📈 提升近40分!这意味着在实际使用中,新模型的回答更自然、更准确、更具逻辑性。
此外,MiMo-VL-7B-RL 在 Elo评分体系 下,在所有开源VLM中排名第一,横跨从7B到72B参数范围,真正实现了“小模型,大能力”。
MiMo-VL 的强大不是偶然,而是源于一套系统性的训练方法。整个开发分为两个阶段:
MiMo-VL 先经历了四个阶段的“基础教育”:
这一阶段产出的是 MiMo-VL-7B-SFT 模型,已经具备强大的推理潜力。
📌 关键创新:小米没有只用人工标注数据,而是利用大型推理模型自动生成高质量的长链思维数据(Long CoT),并通过“拒绝采样”确保质量,大大提升了训练效率和数据多样性。
他们甚至将这些合成数据直接融入预训练后期阶段,而不是作为补充微调,从而避免性能饱和,持续提升能力。
★📌 类比:不是考前突击,而是从小培养逻辑思维。
接下来,小米引入了一种创新的 混合在线强化学习框架(Mixed On-policy Reinforcement Learning, MORL),让模型在实战中不断优化自己。
这个过程有点像“AI高考后进职场实习”: 模型每回答一个问题,都会收到多个维度的“反馈评分”,包括:
通过这些奖励信号联合训练,最终诞生了 MiMo-VL-7B-RL ——一个更像“人类专家”的AI。
📌 挑战:跨模态、跨任务的数据干扰问题依然存在,但小米通过精心设计的训练策略,实现了相对稳定的多目标优化。
在 MathVista、AI2D、PlotQA 等需要图文结合推理的任务中,MiMo-VL 显著优于 LLaVA、Qwen-VL 等主流开源模型。
它不仅能读懂普通图片,还能精准理解手机界面、网页按钮、App布局等 GUI 元素,甚至能告诉你“哪个图标是设置”。
这对于未来智能助手、自动化测试、无障碍访问等应用意义重大。
在 VideoMME 测试中,它能跟踪视频中的动作变化、事件发展,说明它不只是“看帧”,而是真正“理解剧情”。
通过内部数据集 + GPT-4o 判定的 Elo 评分体系,MiMo-VL-7B-RL 在所有开源视觉语言模型中排名第一,横跨7B到72B参数范围!
这意味着:哪怕面对百亿美元投入的大模型,小米这款“小身材”也能一战。
好消息是:MiMo-VL 已完全开源!
你可以在以下平台免费下载和使用:
temperature=0.3, top_p=0.95
系统提示已内置在 chat_template.json
中,无需额外配置。
/no_think
必须作为用户消息的最后一部分,后面不能再跟图像或其他内容。✅ 正确示例:
messages = [
{
"role": "user",
"content": [
{"type": "image", "image": "car.jpg"},
{"type": "text", "text": "这辆车有什么特点? /no_think"}
]
}
]
❌ 错误示例:
# 文本在前,图像在后 —— 模型可能无法识别!
{"type": "text", "text": "描述图片 /no_think"},
{"type": "image", "image": "car.jpg"}
小米不仅开源了模型,还同步发布了:
这意味着:任何研究者都可以复现结果、横向对比、二次开发,极大推动了多模态AI的可复现性和公平竞争。
★小米在arXiv论文中明确表示:“我们希望为社区提供有价值的推理VLM开发经验。”
也许你会问:这跟我有什么关系?
其实,MiMo-VL 的出现,正在悄悄改变未来的交互方式:
而这一切,都基于一个仅70亿参数却异常强大的开源模型。
很多人以为小米只是做手机和家电,但 MiMo-VL 的发布表明:小米正在构建自己的AI技术护城河。
从自研大模型 MiMo-7B,到如今的 MiMo-VL,再到支持图像、视频、GUI 的全栈能力,小米已经悄然跻身中国AI第一梯队。
更重要的是:他们选择开源,让更多开发者、研究者可以基于 MiMo-VL 做二次开发,形成生态闭环。
这不仅是技术输出,更是一种战略格局。
维度 | 表现 |
---|---|
📈 性能 | 开源7B级别最强,多项测试破纪录 |
💬 推理 | 支持可开关的“思维模式”,逻辑清晰 |
🖼️ 视觉理解 | 图像、视频、GUI 全能 |
🧪 实战表现 | 内部评测得分大幅提升 |
📦 开源可用 | HuggingFace & ModelScope 免费下载 |
🛠️ 易于部署 | 兼容 Qwen 架构,开箱即用 |
🧪 评测开放 | 提供完整 lmms-eval 框架 |
MiMo-VL 的成功告诉我们:参数不是唯一标准,聪明的训练方法 + 精细的工程优化 = 更强的AI。
在一个人人都在追逐“千亿参数”的时代,小米用一款7B模型证明:轻量级、高性能、可解释、可控制的AI,才是真正的未来方向。
如果你是开发者,不妨试试 MiMo-VL; 如果你是用户,准备好迎接一个“看得懂世界”的AI时代吧!
📌 延伸阅读 & 下载地址:
💬 欢迎在评论区留言:你觉得“会思考”的AI,离我们还有多远?