引言
当地时间4月5日,Meta正式推出其迄今为止最强大的开源AI模型系列——Llama 4,包含Scout、Maverick和仍在训练中的Behemoth三大版本。这一发布不仅以170亿参数+10M超长上下文窗口刷新行业标准,更凭借多模态融合、混合专家(MoE)架构等突破性技术,在性能上直接叫板GPT-4o和Gemini 2.0。本文将深度解析Llama 4的技术革新、性能对比与下载方式,揭秘它如何通过文本/图像/视频的早期融合重新定义多模态AI的边界。
思维导图
本文的完整思维导图如下,读者可以先看看:
发布时间与版本
当地时间 4 月 5 日(周六),Meta 推出了其最强大的开源人工智能(AI)模型 Llama 4。该系列包括 Llama 4 Scout、Llama 4 Maverick 和仍在训练中的 Llama 4 Behemoth 。目前可下载的是 Llama 4 Scout 和 Llama 4 Maverick 最新模型。
模型参数与特点
官网说明如下:
模型参数
特点
•多模态能力:所有模型都经过大量未标注的文本、图像和视频数据训练,具备广泛的视觉理解能力,能够处理和整合文本、视频、图像和音频等各种类型的数据,并在这些格式之间转换内容。目前多模态功能仅在美国以英语提供。
•长上下文支持:Llama 4 Scout 提供业界领先的 10M 上下文窗口,支持长达 1000 万 token 的上下文,这是目前行业内最长的上下文长度,解锁了围绕记忆、个性化和多模态应用的新用例。
•语言支持:经过预训练和微调,能够理解 12 种语言的文本,支持全球开发和部署。通过在 200 种语言上进行预训练,支持开源微调工作,其中包括超过 100 种语言,每种语言都超过 10 亿 token,总体上比 Llama 3 多 10 倍的多语言 token。
技术创新
混合专家(MoE)架构
这是 Meta 首次采用该架构,在 MoE 模型中,单个 token 仅激活总参数的一部分。Meta 采用交替的密集层和混合专家(MoE)层,在 MoE 层中使用了 128 个路由专家和一个共享专家,每个 token 会被发送到共享专家以及 128 个路由专家中的一个。这种架构在训练和推理时计算效率更高,在固定训练 FLOPs 预算下,相比密集模型提供更高的质量,还通过降低模型服务成本和延迟来提高推理效率。例如,Llama 4 Maverick 可以在单个 NVIDIA H100 DGX 主机上运行,便于部署,也可通过分布式推理实现最高效率。
早期融合
Llama 4 系列模型采用原生多模态设计,通过早期融合将文本和视觉 token 无缝整合到统一的模型骨干中。这样能够使用大量未标记的文本、图像和视频数据对模型进行联合预训练。
MetaP 训练技术
Meta 开发的一种新训练技术,能够可靠地设置模型超参数,例如每层的学习率和初始化规模。选定的超参数在不同批量大小、模型宽度、深度和训练 token 值之间具有良好的迁移性。
FP8 精度训练
采用 FP8 精度进行训练,兼具质量并确保高 FLOPs 利用率。在使用 FP8 和 32K GPU 预训练 Llama 4 Behemoth 模型时,Meta 实现了每 GPU 390 TFLOPs。
性能表现
大模型竞技场(Arena)
Llama 4 Maverick 的总排名第二,成为第四个突破 1400 分的大模型,其中开放模型排名第一,超越了 DeepSeek;在困难提示词、编程、数学、创意写作等任务中排名均为第一;大幅超越了自家 Llama 3 405B,得分从 1268 提升到了 1417;风格控制排名第五。
基准测试
Llama 4 Scout 在广泛报道的基准测试中表现优于 Gemma 3、Gemini 2.0 Flash - Lite 和 Mistral 3.1;Llama 4 Maverick 是同类中最好的多模态模型,在广泛报道的基准测试中击败了 GPT - 4o 和 Gemini 2.0 Flash,同时在推理和编程方面取得了与新 DeepSeek v3 相当的结果,且激活参数不到一半。
性价比
Llama 4 Maverick 在同类模型中表现卓越,为开发者提供无与伦比的性能和价值。
下载途径
用户现在可以在 llama.com 和 Hugging 上下载 Llama 4 Scout 和 Llama 4 Maverick 最新模型,也可以在 Llama.com 网站以及 Meta 的合作伙伴处公开获取。
关注我
如果想追踪我更多的更新,请关注我的公众号
- EOF -
领取专属 10元无门槛券
私享最新 技术干货