首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【资讯】Llama 4 击败 DeepSeek V3

【2025-4-6】Meta 开源首个原生多模态 Llama 4,首次采用 MoE架构,支持12种语言

- Llama 4 原生多模态模型,采用早期融合技术,把文本和视觉token无缝整合到统一的模型框架里

首批发布一共两款:

- Llama 4 Scout:共有1090亿参数,17B活跃参数,16个专家,1000万上下文

- Llama 4 Maverick:共有4000亿参数,17B活跃参数,128个专家,100万上下文

- Llama 4 Behemoth: 2万亿参数, 教师模型,未来几个月面世,288B活跃参数,16个专家。

- 图像精准理解和创意写作方面表现突出,特别适合通用助手、聊天类应用场景。

【效果】

迄今为止开源最强,多模态能力最好的模型之一

- Scout 最大亮点:支持1000万上下文,相当于处理20+小时的视频,仅在单个H100 GPU(Int4 量化后)上就能跑。

- 1000万上下文 Llama 4 Scout 还击败了 OpenAI 模型

- 基准测试中,性能超越 Gemma 3、Gemini 2.0 Flash-Lite、Mistral 3.1。

LMSYS排行榜上,Maverick 冲上第二( ELO得分1417),仅次于闭源 Gemini 2.5 Pro。

- Maverick 仅用一半参数,推理编码能力与 DeepSeek-v3-0324 实力相当。在硬提示(hard prompt)、编程、数学、创意写作、长查询和多轮对话中,并列第一。仅在样式控制下,排名第五。

- Maverick 可轻松部署在一台NVIDIA H100 DGX主机上运行,或者通过分布式推理来实现最高效率

- 即将面世的 Behemoth(仍在训练),是 Maverick 协同蒸馏的教师模型,使用30T多模态token在32K个GPU上进行预训练(FP8)。

【体验方式】

WhatsApp、Messenger、Instagram Direct和网页

【训练方法】

Meta 重新设计后训练流程,全新方法:轻量级监督微调(SFT)> 在线强化学习(RL)> 轻量级直接偏好优化(DPO)。

【附录】

- 新智元报道,https://mp.weixin.qq.com/s/jXFPNym3iR7M6AauLlHwwg

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O9hzC6R_-jhvOEd5uaNbbHpA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券