Meta深夜发布Llama 4开源模型：170亿参数+10M上下文长度，多模态能力全面升级

文章来源：企鹅号 - 枫夜求索阁

引言

当地时间4月5日，Meta正式推出其迄今为止最强大的开源AI模型系列——Llama 4，包含Scout、Maverick和仍在训练中的Behemoth三大版本。这一发布不仅以170亿参数+10M超长上下文窗口刷新行业标准，更凭借多模态融合、混合专家（MoE）架构等突破性技术，在性能上直接叫板GPT-4o和Gemini 2.0。本文将深度解析Llama 4的技术革新、性能对比与下载方式，揭秘它如何通过文本/图像/视频的早期融合重新定义多模态AI的边界。

思维导图

本文的完整思维导图如下，读者可以先看看：

发布时间与版本

当地时间 4 月 5 日（周六），Meta 推出了其最强大的开源人工智能（AI）模型 Llama 4。该系列包括 Llama 4 Scout、Llama 4 Maverick 和仍在训练中的 Llama 4 Behemoth 。目前可下载的是 Llama 4 Scout 和 Llama 4 Maverick 最新模型。

模型参数与特点

官网说明如下：

模型参数

特点

•多模态能力：所有模型都经过大量未标注的文本、图像和视频数据训练，具备广泛的视觉理解能力，能够处理和整合文本、视频、图像和音频等各种类型的数据，并在这些格式之间转换内容。目前多模态功能仅在美国以英语提供。

•长上下文支持：Llama 4 Scout 提供业界领先的 10M 上下文窗口，支持长达 1000 万 token 的上下文，这是目前行业内最长的上下文长度，解锁了围绕记忆、个性化和多模态应用的新用例。

•语言支持：经过预训练和微调，能够理解 12 种语言的文本，支持全球开发和部署。通过在 200 种语言上进行预训练，支持开源微调工作，其中包括超过 100 种语言，每种语言都超过 10 亿 token，总体上比 Llama 3 多 10 倍的多语言 token。

技术创新

混合专家（MoE）架构

这是 Meta 首次采用该架构，在 MoE 模型中，单个 token 仅激活总参数的一部分。Meta 采用交替的密集层和混合专家（MoE）层，在 MoE 层中使用了 128 个路由专家和一个共享专家，每个 token 会被发送到共享专家以及 128 个路由专家中的一个。这种架构在训练和推理时计算效率更高，在固定训练 FLOPs 预算下，相比密集模型提供更高的质量，还通过降低模型服务成本和延迟来提高推理效率。例如，Llama 4 Maverick 可以在单个 NVIDIA H100 DGX 主机上运行，便于部署，也可通过分布式推理实现最高效率。

早期融合

Llama 4 系列模型采用原生多模态设计，通过早期融合将文本和视觉 token 无缝整合到统一的模型骨干中。这样能够使用大量未标记的文本、图像和视频数据对模型进行联合预训练。

MetaP 训练技术

Meta 开发的一种新训练技术，能够可靠地设置模型超参数，例如每层的学习率和初始化规模。选定的超参数在不同批量大小、模型宽度、深度和训练 token 值之间具有良好的迁移性。

FP8 精度训练

采用 FP8 精度进行训练，兼具质量并确保高 FLOPs 利用率。在使用 FP8 和 32K GPU 预训练 Llama 4 Behemoth 模型时，Meta 实现了每 GPU 390 TFLOPs。

性能表现

大模型竞技场（Arena）

Llama 4 Maverick 的总排名第二，成为第四个突破 1400 分的大模型，其中开放模型排名第一，超越了 DeepSeek；在困难提示词、编程、数学、创意写作等任务中排名均为第一；大幅超越了自家 Llama 3 405B，得分从 1268 提升到了 1417；风格控制排名第五。

基准测试

Llama 4 Scout 在广泛报道的基准测试中表现优于 Gemma 3、Gemini 2.0 Flash - Lite 和 Mistral 3.1；Llama 4 Maverick 是同类中最好的多模态模型，在广泛报道的基准测试中击败了 GPT - 4o 和 Gemini 2.0 Flash，同时在推理和编程方面取得了与新 DeepSeek v3 相当的结果，且激活参数不到一半。

性价比

Llama 4 Maverick 在同类模型中表现卓越，为开发者提供无与伦比的性能和价值。

下载途径

用户现在可以在 llama.com 和 Hugging 上下载 Llama 4 Scout 和 Llama 4 Maverick 最新模型，也可以在 Llama.com 网站以及 Meta 的合作伙伴处公开获取。

关注我

如果想追踪我更多的更新，请关注我的公众号

- EOF -

发表于: 2025-04-062025-04-06 10:55:57
原文链接：https://page.om.qq.com/page/OyPiUrMtwmgtHZMpwgDgYFqw0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

Meta深夜发布Llama 4开源模型：170亿参数+10M上下文长度，多模态能力全面升级

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐