Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Meta深夜发布Llama 4开源模型:170亿参数+10M上下文长度,多模态能力全面升级

引言

当地时间4月5日,Meta正式推出其迄今为止最强大的开源AI模型系列——Llama 4,包含Scout、Maverick和仍在训练中的Behemoth三大版本。这一发布不仅以170亿参数+10M超长上下文窗口刷新行业标准,更凭借多模态融合、混合专家(MoE)架构等突破性技术,在性能上直接叫板GPT-4o和Gemini 2.0。本文将深度解析Llama 4的技术革新、性能对比与下载方式,揭秘它如何通过文本/图像/视频的早期融合重新定义多模态AI的边界。

思维导图

本文的完整思维导图如下,读者可以先看看:

发布时间与版本

当地时间 4 月 5 日(周六),Meta 推出了其最强大的开源人工智能(AI)模型 Llama 4。该系列包括 Llama 4 Scout、Llama 4 Maverick 和仍在训练中的 Llama 4 Behemoth 。目前可下载的是 Llama 4 Scout 和 Llama 4 Maverick 最新模型。

模型参数与特点

官网说明如下:

模型参数

特点

多模态能力:所有模型都经过大量未标注的文本、图像和视频数据训练,具备广泛的视觉理解能力,能够处理和整合文本、视频、图像和音频等各种类型的数据,并在这些格式之间转换内容。目前多模态功能仅在美国以英语提供。

长上下文支持:Llama 4 Scout 提供业界领先的 10M 上下文窗口,支持长达 1000 万 token 的上下文,这是目前行业内最长的上下文长度,解锁了围绕记忆、个性化和多模态应用的新用例。

语言支持:经过预训练和微调,能够理解 12 种语言的文本,支持全球开发和部署。通过在 200 种语言上进行预训练,支持开源微调工作,其中包括超过 100 种语言,每种语言都超过 10 亿 token,总体上比 Llama 3 多 10 倍的多语言 token。

技术创新

混合专家(MoE)架构

这是 Meta 首次采用该架构,在 MoE 模型中,单个 token 仅激活总参数的一部分。Meta 采用交替的密集层和混合专家(MoE)层,在 MoE 层中使用了 128 个路由专家和一个共享专家,每个 token 会被发送到共享专家以及 128 个路由专家中的一个。这种架构在训练和推理时计算效率更高,在固定训练 FLOPs 预算下,相比密集模型提供更高的质量,还通过降低模型服务成本和延迟来提高推理效率。例如,Llama 4 Maverick 可以在单个 NVIDIA H100 DGX 主机上运行,便于部署,也可通过分布式推理实现最高效率。

早期融合

Llama 4 系列模型采用原生多模态设计,通过早期融合将文本和视觉 token 无缝整合到统一的模型骨干中。这样能够使用大量未标记的文本、图像和视频数据对模型进行联合预训练。

MetaP 训练技术

Meta 开发的一种新训练技术,能够可靠地设置模型超参数,例如每层的学习率和初始化规模。选定的超参数在不同批量大小、模型宽度、深度和训练 token 值之间具有良好的迁移性。

FP8 精度训练

采用 FP8 精度进行训练,兼具质量并确保高 FLOPs 利用率。在使用 FP8 和 32K GPU 预训练 Llama 4 Behemoth 模型时,Meta 实现了每 GPU 390 TFLOPs。

性能表现

大模型竞技场(Arena)

Llama 4 Maverick 的总排名第二,成为第四个突破 1400 分的大模型,其中开放模型排名第一,超越了 DeepSeek;在困难提示词、编程、数学、创意写作等任务中排名均为第一;大幅超越了自家 Llama 3 405B,得分从 1268 提升到了 1417;风格控制排名第五。

基准测试

Llama 4 Scout 在广泛报道的基准测试中表现优于 Gemma 3、Gemini 2.0 Flash - Lite 和 Mistral 3.1;Llama 4 Maverick 是同类中最好的多模态模型,在广泛报道的基准测试中击败了 GPT - 4o 和 Gemini 2.0 Flash,同时在推理和编程方面取得了与新 DeepSeek v3 相当的结果,且激活参数不到一半。

性价比

Llama 4 Maverick 在同类模型中表现卓越,为开发者提供无与伦比的性能和价值。

下载途径

用户现在可以在 llama.com 和 Hugging 上下载 Llama 4 Scout 和 Llama 4 Maverick 最新模型,也可以在 Llama.com 网站以及 Meta 的合作伙伴处公开获取。

关注我

如果想追踪我更多的更新,请关注我的公众号

- EOF -

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OyPiUrMtwmgtHZMpwgDgYFqw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券
首页
学习
活动
专区
圈层
工具