一场突如其来的发布
Meta在没有事先预警的情况下,突然发布了Llama 4系列模型。Meta这次一口气推出了三款不同规模的模型:Llama 4 Scout、Llama 4 Maverick和Llama 4 Behemoth,每款模型都采用了混合专家(MoE)架构,支持多模态输入,并且拥有令人惊叹的超长上下文窗口。
从0到1:Llama 4的革命性架构
MoE架构:AI的新范式
Llama 4最引人注目的特点是全面采用了混合专家(MoE)架构。与传统的密集模型不同,在MoE架构中,每个token只会激活总参数的一小部分。这种架构设计使得模型在保持高性能的同时,大大降低了计算成本。
以Llama 4 Maverick为例,它拥有4000亿总参数,但每次推理时仅激活约170亿活跃参数。这意味着模型可以根据具体任务的需求,动态地选择最相关的"专家"来处理,既提高了效率,又保持了性能。
超长上下文窗口:打破限制
Llama 4 Scout版本支持惊人的1000万token上下文窗口,相当于可以处理20+小时的视频内容或15000页的文本。相比之下,Llama 4 Maverick的上下文窗口为100万个token,也相当于约1500页的文本。
这种超长上下文能力的背后,是Llama 4采用的创新iRoPE扩展技术,支持"无限"上下文长度目标。这种技术使得模型能够处理极长的文本序列,为长文档分析、复杂推理等应用场景提供了强大的支持。
原生多模态融合:打破模态界限
Llama 4是原生多模态模型,采用早期融合(Early Fusion)技术,可以无缝整合文本和视觉标记到统一的模型主干中。这意味着Llama 4不仅能够处理文本输入,还能理解和处理图像等多模态数据。
三款模型,各有千秋
Llama 4 Scout:轻量高效
Llama 4 Scout拥有170亿激活参数和1090亿总参数,内部包含16个专家。它的设计目标是轻量且快速响应,特别适合那些无法获取大型GPU集群的开发者和研究人员。Scout模型可以在单张H100 GPU(Int4量化后)上运行,大大降低了使用门槛。
Scout版本支持1000万上下文,相当于可以处理20+小时的视频,仅在单个H100 GPU(Int4 量化后)上就能跑。在基准测试中,性能超越Gemma 3、Gemini 2.0 Flash-Lite和MI-30等模型。
Llama 4 Maverick:强大性能
Llama 4 Maverick拥有170亿激活参数和4000亿总参数,包含128个专家。它在图像和文本理解方面表现出色,是多语言AI应用和创意写作的理想选择。
Maverick在某些基准测试中表现超过了DeepSeek V3,成为开源模型的新一代国外霸主。它在创意写作、多模态应用等方面表现出色,但也有用户反馈,在前端界面生成等任务中效果不如DeepSeek V3(2024年3月版)。
Llama 4 Behemoth:巨头降临
Llama 4 Behemoth拥有2880亿激活参数和2万亿总参数,采用16个专家。这是目前最大的开源模型之一,性能目标是超越当前的闭源顶尖模型如Gemini 2.5 Pro和GPT-4.5。不过,目前Behemoth还在训练中,处于预览阶段。
实际应用与用户体验
数学能力:有待提高
根据实际测试,Llama 4在数学能力方面表现平平,与DeepSeek V3相比有一定差距。在一项数学测试中,Llama 4的表现不如DeepSeek V3,这表明在特定领域的能力上,Llama 4还有提升空间。
编码能力:有待优化
在编码能力方面,Llama 4也存在一些问题。在一项测试中,要求模型根据给定的文本进行HTML网页编写时,Llama 4的效果比DeepSeek V3差很多。Maverick写出了HTML代码,但效果太差,而Scout甚至没有理解指令,只写了一个Markdown。
多模态应用:潜力巨大
尽管在某些特定领域表现一般,但Llama 4的多模态能力非常出色。它能够同时处理文本、图像和视频等多种模态的数据,为复杂的应用场景提供了可能。
例如,在电商领域,Llama 4可以通过分析商品图片和用户评论,生成精准的商品推荐,从而提升用户体验并促进销售转化。在医疗领域,开发者可以基于Llama 4开发智能医疗助手,帮助医生更准确地诊断疾病和制定治疗方案。
领取专属 10元无门槛券
私享最新 技术干货