第四范式解决大模型推理GPU瓶颈推理性能大幅提升

文章来源：企鹅号 - 松果投研

松果财经社讯，第四范式发布了大模型推理框架SLXLLM及硬件加速卡SLX,旨在解决当前大模型推理过程中GPU显存瓶颈问题,大幅提升推理性能和效率。

天眼查显示，第四范式自2014年9月成立以来，一直致力于AI助力企业数字化转型，解锁企业高效增长和竞争力智能跃迁，驱动企业经营质变。

据了解,在大模型推理中,GPU显存空间往往受限,导致算力无法完全利用,推理成本居高不下。第四范式新方案通过多任务共享存储及处理优化等技术,在文本生成类场景中,大模型推理性能提升高达10倍。

具体来看,在使用4张80G显存GPU对72B大模型进行推理测试中,采用第四范式SLXLLM+SLX方案后,同时运行任务数量可从原先的4增至40。同时,推理加速卡SLX兼容主流框架,大模型推理性能提升约1-8倍。

在模型效果完全不受影响的情况下,8张24G显存GPU可同时部署16个6B/7B大模型进行FP16推理,相比之前仅能部署8个,GPU利用率最高可达100%,推理成本仅为原来的一半。

据透露,第四范式上述能力已集成至Sage AIOS 5.0平台,有望进一步推动大模型在企业级应用中的落地。行业专家表示,第四范式新方案可大幅降低企业大模型使用门槛,有利于促进大模型技术在生产力和经济效益方面的全面释放。

相关快讯