产品简介

最近更新时间:2024-12-27 21:30:43

我的收藏
TACO-LLM(TencentCloud Accelerated Computing Optimization LLM) 是基于腾讯云异构计算产品推出的一款大语言模型(LLM)推理加速引擎,用于提高大语言模型的推理效能。通过充分利用计算资源的并行计算能力,TACO-LLM 能够同时处理更多的大语言模型推理请求,为客户提供兼顾高吞吐和低时延的优化方案。TACO-LLM 可以降低生成结果的等待时间,提高推理流程效率,助您优化业务成本。

TACO-LLM 的优势

高易用性

TACO-LLM 设计实现了简单易用的接口,完全兼容业界开源 LLM 推理框架 vLLM。如果您正在使用 vLLM 作为推理引擎,可以无缝迁移到 TACO-LLM,轻松获得比 vLLM 更优的性能。此外,TACO-LLM 接口的简单易用性,使得使用其他推理框架的用户也能快速上手。

多计算平台支持

TACO-LLM 支持 GPU(Nvidia / AMD / Intel) / CPU(Intel / AMD) / TPU等多种计算平台,后续还会对主要国产计算平台进行支持。

高效能

TACO-LLM 使用 Continuous Batching / Paged Attention / 投机采样 /Auto Prefix Caching / CPU 辅助加速 / 长序列优化等多种 LLM 推理加速技术,针对不同的计算资源进行性能优化,全方位提升 LLM 推理计算的效能。