计算加速套件 TACO Kit 产品简介

TACO-LLM（TencentCloud Accelerated Computing Optimization LLM） 是基于腾讯云异构计算产品推出的一款大语言模型（LLM）推理加速引擎，用于提高大语言模型的推理效能。通过充分利用计算资源的并行计算能力，TACO-LLM 能够同时处理更多的大语言模型推理请求，为客户提供兼顾高吞吐和低时延的优化方案。TACO-LLM 可以降低生成结果的等待时间，提高推理流程效率，助您优化业务成本。
TACO-LLM 的优势
高易用性
TACO-LLM 设计实现了简单易用的接口，完全兼容业界开源 LLM 推理框架 vLLM。如果您正在使用 vLLM 作为推理引擎，可以无缝迁移到 TACO-LLM，轻松获得比 vLLM 更优的性能。此外，TACO-LLM 接口的简单易用性，使得使用其他推理框架的用户也能快速上手。
多计算平台支持
TACO-LLM 支持 GPU(Nvidia / AMD / Intel) / CPU(Intel / AMD) / TPU等多种计算平台，后续还会对主要国产计算平台进行支持。
高效能
TACO-LLM 使用 Continuous Batching / Paged Attention / 投机采样 /Auto Prefix Caching / CPU 辅助加速 / 长序列优化等多种 LLM 推理加速技术，针对不同的计算资源进行性能优化，全方位提升 LLM 推理计算的效能。
产品简介

本页目录：

TACO-LLM 的优势

高易用性

多计算平台支持

高效能