松果财经社讯,第四范式发布了大模型推理框架SLXLLM及硬件加速卡SLX,旨在解决当前大模型推理过程中GPU显存瓶颈问题,大幅提升推理性能和效率。
天眼查显示,第四范式自2014年9月成立以来,一直致力于AI助力企业数字化转型,解锁企业高效增长和竞争力智能跃迁,驱动企业经营质变。
据了解,在大模型推理中,GPU显存空间往往受限,导致算力无法完全利用,推理成本居高不下。第四范式新方案通过多任务共享存储及处理优化等技术,在文本生成类场景中,大模型推理性能提升高达10倍。
具体来看,在使用4张80G显存GPU对72B大模型进行推理测试中,采用第四范式SLXLLM+SLX方案后,同时运行任务数量可从原先的4增至40。同时,推理加速卡SLX兼容主流框架,大模型推理性能提升约1-8倍。
在模型效果完全不受影响的情况下,8张24G显存GPU可同时部署16个6B/7B大模型进行FP16推理,相比之前仅能部署8个,GPU利用率最高可达100%,推理成本仅为原来的一半。
据透露,第四范式上述能力已集成至Sage AIOS 5.0平台,有望进一步推动大模型在企业级应用中的落地。行业专家表示,第四范式新方案可大幅降低企业大模型使用门槛,有利于促进大模型技术在生产力和经济效益方面的全面释放。
领取专属 10元无门槛券
私享最新 技术干货