【资讯】Llama 4 击败 DeepSeek V3

文章来源：企鹅号 - 鹤啸九天的科技思考

【2025-4-6】Meta 开源首个原生多模态 Llama 4，首次采用 MoE架构，支持12种语言

- Llama 4 原生多模态模型，采用早期融合技术，把文本和视觉token无缝整合到统一的模型框架里

首批发布一共两款：

- Llama 4 Scout：共有1090亿参数，17B活跃参数，16个专家，1000万上下文

- Llama 4 Maverick：共有4000亿参数，17B活跃参数，128个专家，100万上下文

- Llama 4 Behemoth: 2万亿参数, 教师模型，未来几个月面世，288B活跃参数，16个专家。

- 图像精准理解和创意写作方面表现突出，特别适合通用助手、聊天类应用场景。

【效果】

迄今为止开源最强，多模态能力最好的模型之一

- Scout 最大亮点：支持1000万上下文，相当于处理20+小时的视频，仅在单个H100 GPU（Int4 量化后）上就能跑。

- 1000万上下文 Llama 4 Scout 还击败了 OpenAI 模型

- 基准测试中，性能超越 Gemma 3、Gemini 2.0 Flash-Lite、Mistral 3.1。

LMSYS排行榜上，Maverick 冲上第二（ ELO得分1417），仅次于闭源 Gemini 2.5 Pro。

- Maverick 仅用一半参数，推理编码能力与 DeepSeek-v3-0324 实力相当。在硬提示（hard prompt）、编程、数学、创意写作、长查询和多轮对话中，并列第一。仅在样式控制下，排名第五。

- Maverick 可轻松部署在一台NVIDIA H100 DGX主机上运行，或者通过分布式推理来实现最高效率

- 即将面世的 Behemoth（仍在训练），是 Maverick 协同蒸馏的教师模型，使用30T多模态token在32K个GPU上进行预训练（FP8）。

【体验方式】

WhatsApp、Messenger、Instagram Direct和网页

【训练方法】

Meta 重新设计后训练流程，全新方法：轻量级监督微调（SFT）> 在线强化学习（RL）> 轻量级直接偏好优化（DPO）。

【附录】

- 新智元报道，https://mp.weixin.qq.com/s/jXFPNym3iR7M6AauLlHwwg

相关快讯