
谷歌开源家族再添新成员,MoE + 稠密 + 实验架构,四款齐发
Gemma 4 系列模型已正式在我们平台上线。
本次共推出 4 款不同规格,覆盖高效推理、稳定性能和架构探索等多重场景。

本次上新的 Gemma 4 模型如下(型号已按平台规范命名,与官方规格一一对应):
模型 | 规格说明 |
|---|---|
gemma-4-26B-A4B-it | 26B 总参数,MoE架构,推理时仅激活 4B 参数 |
gemma-4-31B-it | 31B 稠密模型,传统架构,性能稳定 |
gemma-4-E2B-it | E2B 实验架构,指令优化版 |
gemma-4-E4B-it | E4B 实验架构,指令优化版 |
全系列均带有 -it(指令微调) 后缀,对话与任务理解能力开箱即用,无需额外调优。
Gemma 4 同时提供了混合专家架构和传统稠密架构两种选择:
● 26B-A4B:总参数量 26B,但推理时只激活 4B 参数。在效果可控的前提下大幅降低推理成本,适合资源受限的部署场景
● 31B:传统稠密模型,追求 稳定、可预期的性能表现,适合对延迟和输出一致性要求较高的生产环境。
开发者可以根据自己的算力和效果需求灵活选择。
这两款模型采用了 不同于标准 Transformer 的实验性结构设计,由 Google 标注为实验版本。
具体架构细节以官方论文为准,但可以确定的是:
● E2B / E4B 并非简单调整参数规模,而是对模型内部计算模式进行了创新尝试。
● 对于 关注前沿模型结构的研究者、算法工程师,它们是进行对比分析、逆向拆解和新架构验证的宝贵素材。
四个模型全部经过指令微调(-it),相比基础版本:
● 对话更自然,遵循复杂指令的能力显著增强
● 无需精心设计 prompt 模板,即可完成 摘要、分类、角色扮演、结构化输出 等常见任务
能力 | 状态 |
|---|---|
任务模式微调 | ✅ 已支持 |
LoRA 对话+评估 | 🚧 测试中 |
目前 任务模式已支持Gemma 4全系模型微调,lora对话和评估暂不支持。
除 Gemma 4 外,Qwen 3.5 系列 的 LoRA 对话支持也有新进展:
除 35B-A3B 和 122B 两个尺寸外,其余所有 Qwen 3.5 尺寸的 LoRA 对话均已支持,可正常使用。
如果您当前的核心需求是 低资源微调 + 对话任务,Qwen 3.5(非 35B/122B)仍是稳定选择。
如果你需要… | 推荐选 |
|---|---|
轻量高效推理 | gemma-4-26B-A4B-it |
稳定性能表现 | gemma-4-31B-it |
研究新架构 | gemma-4-E2B/E4B-it |
1. 双架构并行 —— MoE 降本 + 稠密求稳,按需部署
2. 实验架构开放 —— 为技术探索提供真实的大规模模型素材
3. 指令优化全覆盖 —— 对话与任务能力开箱即用
4. 官方权重,平台完整上线 —— Google 轻量级模型的最新成果,已就绪
立即体验 在LlamaFactory Online体验Gemma 4 全系模型微调,也欢迎在社群中反馈你的使用体验、对比测试结果或改进建议。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。