SmolVLM AI视觉语言模型发布拥有20亿参数适用于端侧推理

文章来源：企鹅号 - PConline数码世界

【太平洋科技快讯】近日，人工智能平台Hugging Face宣布推出一款创新的AI视觉语言模型——SmolVLM，并将该模型开源。这意味着所有相关的模型检查点、数据集、训练配方和工具都将按照Apache 2.0许可证向公众开放，便于更多研究者和技术人员使用和改进。

SmolVLM提供三个版本，包括SmolVLM-Base、SmolVLM-Synthetic和SmolVLM-Instruct，分别适用于下游任务微调、基于合成数据的微调和直接应用于交互式应用的指令微调。该模型仅包含20亿参数，专为设备端推理而设计。这一参数规模使其在保持高效性能的同时，大幅降低了对设备内存的需求。

架构设计上，SmolVLM的借鉴了Idefics3的理念，采用SmolLM2 1.7B作为语言主干。通过独特的像素混洗策略，模型将视觉信息的压缩率提高至9倍，显著提升了处理效率。

SmolVLM使用了Cauldron和Docmatix数据集进行训练，同时对SmolLM2进行上下文扩展，使其能够处理更长的文本序列和多张图像。这些优化措施有效降低了内存占用，解决了大型模型在普通设备上运行缓慢甚至崩溃的问题。

在内存使用方面，SmolVLM表现出卓越的性能。它将384x384像素的图像块编码为81个tokens，相比同类模型Qwen2-VL，在相同测试图片下，内存占用大幅减少。在多项基准测试中，SmolVLM展现出优异的性能。其预填充吞吐量比Qwen2-VL快3.3到4.5倍，生成吞吐量更是快7.5到16倍。

发表于: 2024-11-272024-11-27 19:36:11
原文链接：https://page.om.qq.com/page/OnALtbrre4mw4KXA6I083d4A0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

SmolVLM AI视觉语言模型发布拥有20亿参数适用于端侧推理

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

SmolVLM AI视觉语言模型发布 拥有20亿参数适用于端侧推理

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

SmolVLM AI视觉语言模型发布拥有20亿参数适用于端侧推理