当地时间3月12日,谷歌宣布推出Gemma 3。
该模型首次具备了多模态功能,能够处理视觉和语言输入,并输出文本。它可以处理长达128k的token上下文窗口,支持超过140种语言。Gemma 3提供了四种不同规模的参数选项,包括1B、4B、12B和27B,既有为特定应用场景微调过的预训练版本,也有针对通用指令进行过优化的版本。谷歌称这是目前能在单个GPU或TPU上运行的最强大模型。
Gemma 3在性能上达到了其尺寸所能提供的最先进水平,并且在与Llama-405B、DeepSeek-V3和o3-mini等领先大型语言模型(LLM)的比较中表现优异。在Chatbot Arena Elo分数测试中,Gemma 3 27B的排名仅次于DeepSeek-R1,位居第二,超过了DeepSeek的其他较小模型、DeepSeek v3、OpenAI的o3-mini、Meta的Llama-405B和Mistral Large。
自谷歌2024年2月首次发布Gemma以来,小型语言模型(SLM)受到了越来越多的关注。其他小型模型的出现,如微软的Phi-4和Mistral Small 3,表明企业希望在构建应用程序时使用与大语言模型一样强大的模型,但可能并不总是需要大模型的全部功能。
小模型在特定任务中表现尤为出色,特别是在资源有限的环境中。企业开始认识到,在如简单的代码编辑器或特定领域任务等场景中,较小的模型(无论是SLM还是通过蒸馏等技术精简的版本)能够更高效地完成任务,而不会造成资源浪费或过度拟合。
领取专属 10元无门槛券
私享最新 技术干货