【2025-4-6】Meta 开源首个原生多模态 Llama 4,首次采用 MoE架构,支持12种语言
- Llama 4 原生多模态模型,采用早期融合技术,把文本和视觉token无缝整合到统一的模型框架里
首批发布一共两款:
- Llama 4 Scout:共有1090亿参数,17B活跃参数,16个专家,1000万上下文
- Llama 4 Maverick:共有4000亿参数,17B活跃参数,128个专家,100万上下文
- Llama 4 Behemoth: 2万亿参数, 教师模型,未来几个月面世,288B活跃参数,16个专家。
- 图像精准理解和创意写作方面表现突出,特别适合通用助手、聊天类应用场景。
【效果】
迄今为止开源最强,多模态能力最好的模型之一
- Scout 最大亮点:支持1000万上下文,相当于处理20+小时的视频,仅在单个H100 GPU(Int4 量化后)上就能跑。
- 1000万上下文 Llama 4 Scout 还击败了 OpenAI 模型
- 基准测试中,性能超越 Gemma 3、Gemini 2.0 Flash-Lite、Mistral 3.1。
LMSYS排行榜上,Maverick 冲上第二( ELO得分1417),仅次于闭源 Gemini 2.5 Pro。
- Maverick 仅用一半参数,推理编码能力与 DeepSeek-v3-0324 实力相当。在硬提示(hard prompt)、编程、数学、创意写作、长查询和多轮对话中,并列第一。仅在样式控制下,排名第五。
- Maverick 可轻松部署在一台NVIDIA H100 DGX主机上运行,或者通过分布式推理来实现最高效率
- 即将面世的 Behemoth(仍在训练),是 Maverick 协同蒸馏的教师模型,使用30T多模态token在32K个GPU上进行预训练(FP8)。
【体验方式】
WhatsApp、Messenger、Instagram Direct和网页
【训练方法】
Meta 重新设计后训练流程,全新方法:轻量级监督微调(SFT)> 在线强化学习(RL)> 轻量级直接偏好优化(DPO)。
【附录】
- 新智元报道,https://mp.weixin.qq.com/s/jXFPNym3iR7M6AauLlHwwg
领取专属 10元无门槛券
私享最新 技术干货