在人工智能(AI)领域,随着AI驱动的应用程序生态系统迅速扩张,将生成式AI能力融入其中已成为开发者的热门追求。然而,这一过程并非简单地“一揽子”解决方案,而是需要在内存、延迟、存储、计算能力等多种资源之间进行精细的平衡。对于开发者而言,在管理成本和用户体验时,没有一种通用的方法能够适用于所有情况。因此,我们需要高质量、可定制的模型,这些模型能够支持在不同计算环境(从数据中心到边缘计算再到设备端应用场景)中托管和部署的大规模服务。
在构建AI系统时,资源的有效分配至关重要。内存决定了模型能够处理的数据量,延迟影响着用户体验的流畅性,存储则关乎数据的持久保存和快速访问,而计算能力则是模型运行效率和性能的基础。开发者需要根据具体的应用场景和需求,对这些资源进行合理的配置和优化。
为了满足这一需求,Google DeepMind和NVIDIA合作推出了Gemma 3,这是一系列新的多模态和多语言开放模型。
Gemma 3 1B是Gemma系列开放权重模型中的新成员,为在移动和网页端分布式部署小型语言模型(SLM)提供了可能。在生产环境中部署SLM时,模型需足够小以快速下载,运行足够快以吸引用户注意,并兼容多种终端设备。
Gemma 3包括一个10亿参数(1B)的仅文本小型语言模型(SLM)以及三个图像-文本模型,参数规模分别为40亿(4B)、120亿(12B)和270亿(27B)。这些模型在HuggingFace上可用,并且可以在NVIDIA API目录中试用1B模型的演示。
NVIDIA API目录为开发者提供了一个实验和原型开发的平台。在这里,开发者可以使用自己的数据来探索Gemma 3模型,并配置诸如最大令牌数、温度采样值和顶部P采样值等参数。此外,该平台还会生成在Python、NodeJS和Bash中集成模型所需的代码,大大简化了开发流程。
如果开发者正在使用LangChain来构建代理、连接外部数据或链接动作,那么他们可以使用NVIDIA LangChain库生成的可重用客户端。要开始在自己的环境中使用Gemma 3模型,开发者可以按照以下步骤操作:
Gemma 3模型的另一个显著特点是它们可以部署到NVIDIA Jetson系列的嵌入式计算板上,这些板子广泛用于机器人和边缘AI应用。较小的1B和4B变体可以在像Jetson Nano这样的小型设备上使用,而针对高需求应用构建的27B模型则可以在支持高达275 TOPS(万亿次操作每秒)的Jetson AGX Orin上运行。
NVIDIA和Google DeepMind在Gemma的每一次发布中都进行了合作。NVIDIA在优化GPU模型方面发挥了关键作用,并对JAX(Python机器学习库)、Google的XLA编译器、OpenXLA等多个项目做出了贡献。
NVIDIA是开源生态系统的积极贡献者,已经发布了数百个开源许可下的项目。NVIDIA致力于推广像Gemma这样的开放模型,这些模型促进了AI的透明度,并让用户能够广泛分享在AI安全性和韧性方面的工作。使用NVIDIA NeMo平台,这些开放模型可以在专有数据上进行定制和调整,以用于任何行业的AI工作流程。
开发者可以带着自己的数据,在NVIDIA加速平台上尝试Gemma模型。通过NVIDIA API目录中的Gemma模型,开发者可以轻松开始他们的探索之旅:
ttps://build.nvidia.com/models?q=gemma
总之,Gemma 3模型的推出为开发者提供了更多选择和灵活性,使他们能够在不同计算环境中构建高效、可定制的AI系统。通过NVIDIA和Google DeepMind的合作,以及NVIDIA对开源社区的持续贡献,我们有理由相信,未来的AI系统将会更加智能、更加高效、更加易于部署和管理。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有