首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

第四范式解决大模型推理GPU瓶颈 推理性能大幅提升

松果财经社讯,第四范式发布了大模型推理框架SLXLLM及硬件加速卡SLX,旨在解决当前大模型推理过程中GPU显存瓶颈问题,大幅提升推理性能和效率。

天眼查显示,第四范式自2014年9月成立以来,一直致力于AI助力企业数字化转型,解锁企业高效增长和竞争力智能跃迁,驱动企业经营质变。

据了解,在大模型推理中,GPU显存空间往往受限,导致算力无法完全利用,推理成本居高不下。第四范式新方案通过多任务共享存储及处理优化等技术,在文本生成类场景中,大模型推理性能提升高达10倍。

具体来看,在使用4张80G显存GPU对72B大模型进行推理测试中,采用第四范式SLXLLM+SLX方案后,同时运行任务数量可从原先的4增至40。同时,推理加速卡SLX兼容主流框架,大模型推理性能提升约1-8倍。

在模型效果完全不受影响的情况下,8张24G显存GPU可同时部署16个6B/7B大模型进行FP16推理,相比之前仅能部署8个,GPU利用率最高可达100%,推理成本仅为原来的一半。

据透露,第四范式上述能力已集成至Sage AIOS 5.0平台,有望进一步推动大模型在企业级应用中的落地。行业专家表示,第四范式新方案可大幅降低企业大模型使用门槛,有利于促进大模型技术在生产力和经济效益方面的全面释放。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O3joe2hXQudyst0L2NLU3D2Q0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券