腾讯云大模型训推平台TI-ONE 大模型推理所需资源指南

本文旨在介绍 TI-ONE 平台进行大模型推理时，可保障模型正常运行的配置资源，仅供您参考。
内置大模型的推理资源指南
注意：
1. 各机型库存及价格请前往 CVM 控制台 查看，可参考 CVM-实例创建指引。其中 PNV6/HCCPNV6 机型需联系您所对接的腾讯云销售进行开通和购买。
2. 在部署 DeepSeek V3 或 R1 模型时，如仅需低并发体验，可使用单节点部署；如果您对推理性能以及上下文长度有较高要求，且算力资源充足，推荐使用至少2节点部署。
3. 下表的推理资源配置略小于 CVM 实例配置，是因为 TI-ONE 平台管理 CVM 机器时将占用少量资源。例如：某 CVM 实例规格包含128核，添加至资源组后的可用资源为125.6核。
内置大模型
模型清单
推理资源推荐
﻿
﻿
﻿
机器来源：从 CVM 机器中选择（包年包月）
机器来源：从 TI-ONE 平台购买（按量计费）
Hunyuan-Large
Hunyuan-Large-chat
部署方式：标准部署（开 nf4 量化）
【推荐配置1】
CVM 实例规格：PNV6.96XLARGE2304
CVM 实例配置：384C2304GB 8卡
推理资源配置：380C2214GB 8卡
﻿
【推荐配置2】
CVM 实例规格：HCCPNV4h.48XLARGE1024
CVM 实例配置：192核1024GB 8卡A100
推理资源配置： 189核980GB 8卡A100
–
Hunyuan-A13B
Hunyuan-A13B-Instruct
部署方式：标准部署
CVM 实例规格：PNV6.16XLARGE640
CVM 实例配置：64C640GB 4卡
推理资源配置：60C600GB 4卡
部署方式：标准部署
算力规格：64C640GB GPU*4（PNV6.16XLARGE640）
DeepSeek 系列模型
DeepSeek-V3.1-Terminus
【最低配置】
部署方式：标准部署
CVM 实例规格：PNV6.32XLARGE1280
CVM 实例配置：128C1280GB 8卡
推理资源配置：125C1207GB 8卡
﻿
【推荐配置】
部署方式：多机分布式部署
CVM 实例规格：HCCPNV6.96XLARGE2304
CVM 实例配置：384C2304GB 8卡
推理资源配置：380C2214GB 8卡 * 2个实例
部署方式：标准部署
算力规格：128C1280GB GPU*8（PNV6.32XLARGE1280）
﻿
﻿
DeepSeek-V3.1
【最低配置】
部署方式：标准部署
CVM 实例规格：PNV6.32XLARGE1280
CVM 实例配置：128C1280GB 8卡
推理资源配置：125C1207GB 8卡
﻿
【推荐配置】
部署方式：多机分布式部署
CVM 实例规格：HCCPNV6.96XLARGE2304
CVM 实例配置：384C2304GB 8卡
推理资源配置：380C2214GB 8卡 * 2个实例
部署方式：标准部署
算力规格：128C1280GB GPU*8（PNV6.32XLARGE1280）
﻿
﻿
DeepSeek-R1-0528-AngelACC
部署方式：标准部署
CVM 实例规格：PNV6.32XLARGE1280
CVM 实例配置：128C1280GB 8卡
推理资源配置：125C1207GB 8卡
部署方式：标准部署
算力规格：128C1280GB GPU*8（PNV6.32XLARGE1280）
﻿
DeepSeek-R1-0528-AngelACC-PD
【最低配置】部署方式：多机分布式部署
CVM 实例规格：HCCPNV6.96XLARGE2304
CVM 实例配置：384C2304GB 8卡
推理资源配置：380C2214GB 8卡 * 2个实例
说明：此模型采用 PD 分离部署，2个实例为1p1d配置，3个实例为2p1d配置，4个实例为2p2d配置，5个实例为3p2d配置，依次类推
-
﻿
DeepSeek-R1-0528
部署方式：标准部署
CVM 实例规格：PNV6.32XLARGE1280
CVM 实例配置：128C1280GB 8卡
推理资源配置：125C1207GB 8卡
﻿
部署方式：多机分布式部署
CVM 实例规格：HCCPNV6.96XLARGE2304
CVM 实例配置：384C2304GB 8卡
推理资源配置：380C2214GB 8卡 * 2个实例
部署方式：标准部署
算力规格：128C1280GB GPU*8（PNV6.32XLARGE1280）
﻿
DeepSeek-R1-AngelACC
部署方式：标准部署
CVM 实例规格：PNV6.32XLARGE1280
CVM 实例配置：128C1280GB 8卡
推理资源配置：125C1207GB 8卡
部署方式：标准部署
算力规格：128C1280GB GPU*8（PNV6.32XLARGE1280）
﻿
DeepSeek-R1-AngelACC-PD
【最低配置】部署方式：多机分布式部署
CVM 实例规格：HCCPNV6.96XLARGE2304
CVM 实例配置：384C2304GB 8卡
推理资源配置：380C2214GB 8卡 * 2个实例
说明：此模型采用 PD 分离部署，2个实例为1p1d配置，3个实例为2p1d配置，4个实例为2p2d配置，5个实例为3p2d配置，依次类推
-
﻿
DeepSeek-R1
部署方式：标准部署
CVM 实例规格：PNV6.32XLARGE1280
CVM 实例配置：128C1280GB 8卡
推理资源配置：125C1207GB 8卡
﻿
部署方式：多机分布式部署
CVM 实例规格：HCCPNV6.96XLARGE2304
CVM 实例配置：384C2304GB 8卡
部署方式：多机分布式部署
节点数量：2个
推理资源配置（每节点）：380C2214GB 8卡
部署方式：标准部署
算力规格：128C1280GB GPU*8（PNV6.32XLARGE1280）
﻿
﻿
DeepSeek-V3-0324-AngelACC
部署方式：标准部署
CVM 实例规格：PNV6.32XLARGE1280
CVM 实例配置：128C1280GB 8卡
推理资源配置：125C1207GB 8卡
部署方式：标准部署
算力规格：128C1280GB GPU*8（PNV6.32XLARGE1280）
﻿
DeepSeek-V3-0324-AngelACC-PD
【最低配置】部署方式：多机分布式部署
CVM 实例规格：HCCPNV6.96XLARGE2304
CVM 实例配置：384C2304GB 8卡
推理资源配置：380C2214GB 8卡 * 2个实例
说明：此模型采用 PD 分离部署，2个实例为1p1d配置，3个实例为2p1d配置，4个实例为2p2d配置，5个实例为3p2d配置，依次类推
-
﻿
DeepSeek-V3-0324
部署方式：标准部署
CVM 实例规格：PNV6.32XLARGE1280
CVM 实例配置：128C1280GB 8卡
推理资源配置：125C1207GB 8卡
﻿
【推荐配置】部署方式：多机分布式部署
CVM 实例规格：HCCPNV6.96XLARGE2304
CVM 实例配置：384C2304GB 8卡
推理资源配置：380C2214GB 8卡 * 2个实例
部署方式：标准部署
算力规格：128C1280GB GPU*8（PNV6.32XLARGE1280）
﻿
DeepSeek-V3-AngelACC
部署方式：标准部署
CVM 实例规格：PNV6.32XLARGE1280
CVM 实例配置：128C1280GB 8卡
推理资源配置：125C1207GB 8卡
部署方式：标准部署
算力规格：128C1280GB GPU*8（PNV6.32XLARGE1280）
﻿
DeepSeek-V3
部署方式：标准部署
CVM 实例规格：PNV6.32XLARGE1280
CVM 实例配置：128C1280GB 8卡
推理资源配置：125C1207GB 8卡
﻿
部署方式：多机分布式部署
CVM 实例规格：HCCPNV6.96XLARGE2304
CVM 实例配置：384C2304GB 8卡
节点数量：2个
推理资源配置（每节点）：380C2214GB 8卡
部署方式：标准部署
算力规格：128C1280GB GPU*8（PNV6.32XLARGE1280）
﻿
DeepSeek-Prover-V2-7B
部署方式：标准部署
CVM 实例规格：PNV6.32XLARGE1280
CVM 实例配置：128C1280GB 8卡
推理资源配置：125C1207GB 8卡
﻿
【推荐配置】部署方式：多机分布式部署
CVM 实例规格：HCCPNV6.96XLARGE2304
CVM 实例配置：384C2304GB 8卡
推理资源配置：380C2214GB 8卡 * 2个实例
部署方式：标准部署
算力规格：128C1280GB GPU*8（PNV6.32XLARGE1280）
﻿
﻿
DeepSeek-Prover-V2-671B
部署方式：标准部署
CVM 实例规格：PNV6.32XLARGE1280
CVM 实例配置：128C1280GB 8卡
推理资源配置：125C1207GB 8卡
﻿
【推荐配置】部署方式：多机分布式部署
CVM 实例规格：HCCPNV6.96XLARGE2304
CVM 实例配置：384C2304GB 8卡
推理资源配置：380C2214GB 8卡 * 2个实例
部署方式：标准部署
算力规格：128C1280GB GPU*8（PNV6.32XLARGE1280）
﻿
DeepSeek-R1-Distill-Qwen-1.5B
部署方式：标准部署
CVM 实例规格：GNV4.3XLARGE44
CVM 实例配置：12C44GB 1卡A10
推理资源配置：11C35GB 1卡A10
部署方式：标准部署
算力规格：12C44GB 1卡A10
﻿
DeepSeek-R1-Distill-Qwen-7B
部署方式：标准部署
CVM 实例规格：GNV4.3XLARGE44
CVM 实例配置：12C44GB 1卡A10
推理资源配置：11C35GB 1卡A10
部署方式：标准部署
算力规格：12C44GB 1卡A10
﻿
DeepSeek-R1-Distill-Qwen-14B
【推荐配置1】部署方式：标准部署
CVM 实例规格：PNV6.4XLARGE160
CVM 实例配置：16C160GB 1卡GPU
推理资源配置：15C144GB 1卡GPU
﻿
【推荐配置2】部署方式：标准部署
CVM 实例规格：PNV5b.8XLARGE96
CVM 实例配置：32C96GB 1卡PNV5b
推理资源配置： 30C80GB 1卡PNV5b
【推荐配置1】
部署方式：标准部署
算力规格：16C160GB GPU*1（PNV6.4XLARGE160）
【推荐配置2】
部署方式：标准部署
算力规格：32C96GB 1卡PNV5b
﻿
DeepSeek-R1-Distill-Qwen-32B-AngelACC
部署方式：标准部署
CVM 实例规格：PNV6.4XLARGE160
CVM 实例配置：16C160GB 1卡
推理资源配置：15C144GB 1卡
部署方式：标准部署
算力规格：16C160GB GPU*1（PNV6.4XLARGE160）
﻿
DeepSeek-R1-Distill-Qwen-32B
【推荐配置1】部署方式：标准部署
CVM 实例规格：PNV6.4XLARGE160
CVM 实例配置：16C160GB 1卡
推理资源配置：15C144GB 1卡
﻿
【推荐配置2】部署方式：标准部署
CVM 实例规格：PNV5b.16XLARGE192
CVM 实例配置：64C192GB 2卡PNV5b
推理资源配置：62C172GB 2卡PNV5b
【推荐配置1】
部署方式：标准部署
算力规格：16C160GB GPU*1（PNV6.4XLARGE160）
【推荐配置2】
部署方式：标准部署
算力规格：64C192GB 2卡PNV5b
gpt-oss
gpt-oss-120b
部署方式：标准部署
CVM 实例规格：PNV6.8XLARGE320
CVM 实例配置：32C320GB 2卡
推理资源配置：30C288GB 2卡
部署方式：标准部署
算力规格：32C320GB GPU*2（PNV6.8XLARGE320）
﻿
gpt-oss-20b
部署方式：标准部署
CVM 实例规格：PNV6.4XLARGE160
CVM 实例配置：16C160GB 1卡
推理资源配置：15C144GB 1卡
部署方式：标准部署
算力规格：16C160GB GPU*1（PNV6.4XLARGE160）
Kimi-K2
Kimi-K2-Instruct
部署方式：多机分布式部署
CVM 实例规格：HCCPNV6.96XLARGE2304
CVM 实例配置：384C2304GB 8卡
推理资源配置：380C2214GB 8卡 * 2个实例
 -
﻿
Kimi-K2-Instruct-0905
部署方式：多机分布式部署
CVM 实例规格：HCCPNV6.96XLARGE2304
CVM 实例配置：384C2304GB 8卡
推理资源配置：380C2214GB 8卡 * 2个实例
 -
Cosmos-Reason1
Cosmos-Reason1
部署方式：标准部署
CVM 实例规格：PNV6.4XLARGE160
CVM 实例配置：16C160GB 1卡
推理资源配置：15C144GB 1卡
部署方式：标准部署
算力规格：16C160GB GPU*1（PNV6.4XLARGE160）
Qwen3 系列模型
Qwen3-0.6B
部署方式：标准部署
CVM 实例规格：GNV4.3XLARGE44
CVM 实例配置：12C44GB 1卡A10
推理资源配置：11C35GB 1卡A10
部署方式：标准部署
算力规格：12C44GB 1卡A10
﻿
Qwen3-1.7B
部署方式：标准部署
CVM 实例规格：GNV4.3XLARGE44
CVM 实例配置：12C44GB 1卡A10
推理资源配置：11C35GB 1卡A10
部署方式：标准部署
算力规格：12C44GB 1卡A10
﻿
Qwen3-4B
部署方式：标准部署
CVM 实例规格：GNV4.3XLARGE44
CVM 实例配置：12C44GB 1卡A10
推理资源配置：11C35GB 1卡A10
部署方式：标准部署
算力规格：12C44GB 1卡A10
﻿
Qwen3-8B
部署方式：标准部署
CVM 实例规格：PNV6 / HCCPNV6 系列
推理资源配置：15C144GB 1卡
部署方式：标准部署
算力规格：16C160GB GPU*1（PNV6.4XLARGE160）
﻿
Qwen3-14B
部署方式：标准部署
CVM 实例规格：PNV6 / HCCPNV6 系列
推理资源配置：15C144GB 1卡
部署方式：标准部署
算力规格：16C160GB GPU*1（PNV6.4XLARGE160）
﻿
Qwen3-30B-A3B
部署方式：标准部署
CVM 实例规格：PNV6 / HCCPNV6 系列
推理资源配置：15C144GB 1卡
部署方式：标准部署
算力规格：16C160GB GPU*1（PNV6.4XLARGE160）
﻿
Qwen3-32B
部署方式：标准部署
CVM 实例规格：PNV6 / HCCPNV6 系列
推理资源配置：15C144GB 1卡
部署方式：标准部署
算力规格：16C160GB GPU*1（PNV6.4XLARGE160）
﻿
Qwen3-235B-A22B
部署方式：标准部署
CVM 实例规格：PNV6.32XLARGE1280
CVM 实例配置：128C1280GB 8卡
推理资源配置：125C1207GB 8卡
部署方式：标准部署
算力规格：128C1280GB GPU*8（PNV6.32XLARGE1280）
﻿
Qwen3-235B-A22B-Instruct-2507
部署方式：标准部署
CVM 实例规格：PNV6.32XLARGE1280
CVM 实例配置：128C1280GB 8卡
推理资源配置：125C1207GB 8卡
部署方式：标准部署
算力规格：128C1280GB GPU*8（PNV6.32XLARGE1280）
﻿
Qwen3-235B-A22B-Thinking-2507
 部署方式：标准部署
CVM 实例规格：PNV6.32XLARGE1280
CVM 实例配置：128C1280GB 8卡
推理资源配置：125C1207GB 8卡
部署方式：标准部署
算力规格：128C1280GB GPU*8（PNV6.32XLARGE1280）
﻿
Qwen3-0.6B-FP8
部署方式：标准部署
CVM 实例规格：PNV6.4XLARGE160
CVM 实例配置：16C160GB 1卡
推理资源配置：15C144GB 1卡
部署方式：标准部署
算力规格：16C160GB GPU*1（PNV6.4XLARGE160）
﻿
Qwen3-1.7B-FP8
部署方式：标准部署
CVM 实例规格：PNV6.4XLARGE160
CVM 实例配置：16C160GB 1卡
推理资源配置：15C144GB 1卡
部署方式：标准部署
算力规格：16C160GB GPU*1（PNV6.4XLARGE160）
﻿
Qwen3-4B-FP8
部署方式：标准部署
CVM 实例规格：PNV6.4XLARGE160
CVM 实例配置：16C160GB 1卡
推理资源配置：15C144GB 1卡
部署方式：标准部署
算力规格：16C160GB GPU*1（PNV6.4XLARGE160）
﻿
Qwen3-8B-FP8
部署方式：标准部署
CVM 实例规格：PNV6.4XLARGE160
CVM 实例配置：16C160GB 1卡
推理资源配置：15C144GB 1卡
部署方式：标准部署
算力规格：16C160GB GPU*1（PNV6.4XLARGE160）
﻿
Qwen3-14B-FP8
部署方式：标准部署
CVM 实例规格：PNV6.4XLARGE160
CVM 实例配置：16C160GB 1卡
推理资源配置：15C144GB 1卡
部署方式：标准部署
算力规格：16C160GB GPU*1（PNV6.4XLARGE160）
﻿
Qwen3-30B-A3B-FP8
部署方式：标准部署
CVM 实例规格：PNV6.4XLARGE160
CVM 实例配置：16C160GB 1卡
推理资源配置：15C144GB 1卡
部署方式：标准部署
算力规格：16C160GB GPU*1（PNV6.4XLARGE160）
﻿
Qwen3-32B-FP8
部署方式：标准部署
CVM 实例规格：PNV6.4XLARGE160
CVM 实例配置：16C160GB 1卡
推理资源配置：15C144GB 1卡
部署方式：标准部署
算力规格：16C160GB GPU*1（PNV6.4XLARGE160）
﻿
Qwen3-235B-A22B-FP8
部署方式：标准部署
CVM 实例规格：PNV6.16XLARGE640
CVM 实例配置：64C640GB 4卡
推理资源配置：60C600GB 4卡
部署方式：标准部署
算力规格：64C640GB GPU*4（PNV6.16XLARGE640）
﻿
Qwen3-235B-A22B-Instruct-2507-FP8
部署方式：标准部署
CVM 实例规格：PNV6.16XLARGE640
CVM 实例配置：64C640GB 4卡
推理资源配置：60C600GB 4卡
部署方式：标准部署
算力规格：64C640GB GPU*4（PNV6.16XLARGE640）
﻿
Qwen3-235B-A22B-Thinking-2507-FP8
部署方式：标准部署
CVM 实例规格：PNV6.16XLARGE640
CVM 实例配置：64C640GB 4卡
推理资源配置：60C600GB 4卡
部署方式：标准部署
算力规格：64C640GB GPU*4（PNV6.16XLARGE640）
Qwen3-Coder 系列模型
Qwen3-Coder-480B-A35B-Instruct
部署方式：多机分布式部署
CVM 实例规格：HCCPNV6.96XLARGE2304
CVM 实例配置：384C2304GB 8卡
推理资源配置：380C2214GB 8卡 * 2个实例
 -
﻿
Qwen3-Coder-480B-A35B-Instruct-FP8
部署方式：标准部署
CVM 实例规格：PNV6.32XLARGE1280
CVM 实例配置：128C1280GB 8卡
推理资源配置：125C1207GB 8卡
部署方式：标准部署
算力规格：128C1280GB GPU*8（PNV6.32XLARGE1280）
QwQ 系列模型
qwq_32b
部署方式：标准部署
CVM 实例规格：PNV6.4XLARGE160
CVM 实例配置：16C160GB 1卡
推理资源配置：15C144GB 1卡
部署方式：标准部署
算力规格：16C160GB GPU*1（PNV6.4XLARGE160）
Qwen 系列模型
qwen-14b-base
CVM 实例规格：PNV5b.8XLARGE96
CVM 实例配置：32C96GB 1卡PNV5b
推理资源配置： 30C80GB 1卡PNV5b
部署方式：标准部署
部署方式：标准部署
算力规格：32C96GB 1卡PNV5b
﻿
qwen-14b-chat
CVM 实例规格：PNV5b.8XLARGE96
CVM 实例配置：32C96GB 1卡PNV5b
推理资源配置： 30C80GB 1卡PNV5b
部署方式：标准部署
部署方式：标准部署
算力规格：32C96GB 1卡PNV5b
Qwen3-VL系列模型
Qwen3-VL-235B-A22B-Instruct
部署方式：标准部署
CVM 实例规格：PNV6.32XLARGE1280
CVM 实例配置：128C1280GB 8卡
推理资源配置：125C1207GB 8卡
 部署方式：标准部署
算力规格：128C1280GB GPU*8（PNV6.32XLARGE1280）
Qwen2.5-VL 系列模型
Qwen2.5-VL-32B-Instruct
部署方式：标准部署
CVM 实例规格：PNV6.8XLARGE320
CVM 实例配置：32C320GB 2卡
推理资源配置：30C288GB 2卡
部署方式：标准部署
算力规格：32C320GB GPU*2（PNV6.8XLARGE320）
﻿
Qwen2.5-VL-72B-Instruct
部署方式：标准部署
CVM 实例规格：PNV6.16XLARGE640
CVM 实例配置：64C640GB 4卡
推理资源配置：60C600GB 4卡
部署方式：标准部署
算力规格：64C640GB GPU*4（PNV6.16XLARGE640）
﻿
Qwen2.5-VL-72B-Instruct-AWQ
部署方式：标准部署
CVM 实例规格：PNV6.4XLARGE160
CVM 实例配置：16C160GB 1卡
推理资源配置：15C144GB 1卡
 部署方式：标准部署
算力规格：16C160GB GPU*1（PNV6.4XLARGE160）
Qwen3-Embedding 系列模型
Qwen3-Embedding-8B
部署方式：标准部署
CVM 实例规格：PNV6.4XLARGE160
CVM 实例配置：16C160GB 1卡
推理资源配置：15C144GB 1卡
部署方式：标准部署
算力规格：16C160GB GPU*1（PNV6.4XLARGE160）
Baichuan2 系列模型
baichuan2-7b-base
CVM 实例规格：PNV4.7XLARGE116
CVM 实例配置：28C116GB 1卡A10
部署方式：标准部署
推理资源配置：24C96GB 1卡A10
部署方式：标准部署
算力规格：28核116GB 1卡A10
﻿
baichuan2-7b-chat
CVM 实例规格：PNV4.7XLARGE116
CVM 实例配置：28C116GB 1卡A10
部署方式：标准部署
推理资源配置：24C96GB 1卡A10
部署方式：标准部署
算力规格：28核116GB 1卡A10
﻿
baichuan2-13b-base
CVM 实例规格：PNV5b.8XLARGE96
CVM 实例配置：32C96GB 1卡PNV5b
推理资源配置： 30C80GB 1卡PNV5b
部署方式：标准部署
部署方式：标准部署
算力规格：32C96GB 1卡PNV5b
﻿
baichuan2-13b-chat
CVM 实例规格：PNV5b.8XLARGE96
CVM 实例配置：32C96GB 1卡PNV5b
推理资源配置： 30C80GB 1卡PNV5b
部署方式：标准部署
部署方式：标准部署
算力规格：32C96GB 1卡PNV5b
Gemma 3系列模型
gemma-3-27b-it
部署方式：标准部署
CVM 实例规格：PNV6.4XLARGE160
CVM 实例配置：16C160GB 1卡
推理资源配置：15C144GB 1卡
部署方式：标准部署
算力规格：16C160GB GPU*1（PNV6.4XLARGE160）
﻿
gemma-3-12b-it
部署方式：标准部署
CVM 实例规格：PNV6.4XLARGE160
CVM 实例配置：16C160GB 1卡
推理资源配置：15C144GB 1卡
部署方式：标准部署
算力规格：16C160GB GPU*1（PNV6.4XLARGE160）
GLM-4.5V系列模型
GLM-4.5V
部署方式：标准部署
CVM 实例规格：PNV6.16XLARGE640
CVM 实例配置：64C640GB 4卡
推理资源配置：60C600GB 4卡
部署方式：标准部署
算力规格：64C640GB GPU*4（PNV6.16XLARGE640）
﻿

内置大模型	模型清单	推理资源推荐
内置大模型	模型清单			机器来源：从 CVM 机器中选择（包年包月）	机器来源：从 TI-ONE 平台购买（按量计费）
Hunyuan-Large	Hunyuan-Large-chat	部署方式：标准部署（开 nf4 量化）【推荐配置1】 CVM 实例规格：PNV6.96XLARGE2304 CVM 实例配置：384C2304GB 8卡推理资源配置：380C2214GB 8卡【推荐配置2】 CVM 实例规格：HCCPNV4h.48XLARGE1024 CVM 实例配置：192核1024GB 8卡A100 推理资源配置： 189核980GB 8卡A100	–
Hunyuan-A13B	Hunyuan-A13B-Instruct	部署方式：标准部署 CVM 实例规格：PNV6.16XLARGE640 CVM 实例配置：64C640GB 4卡推理资源配置：60C600GB 4卡	部署方式：标准部署算力规格：64C640GB GPU*4（PNV6.16XLARGE640）
DeepSeek 系列模型	DeepSeek-V3.1-Terminus	【最低配置】部署方式：标准部署 CVM 实例规格：PNV6.32XLARGE1280 CVM 实例配置：128C1280GB 8卡推理资源配置：125C1207GB 8卡【推荐配置】部署方式：多机分布式部署 CVM 实例规格：HCCPNV6.96XLARGE2304 CVM 实例配置：384C2304GB 8卡推理资源配置：380C2214GB 8卡 * 2个实例	部署方式：标准部署算力规格：128C1280GB GPU*8（PNV6.32XLARGE1280）
		DeepSeek-V3.1	【最低配置】部署方式：标准部署 CVM 实例规格：PNV6.32XLARGE1280 CVM 实例配置：128C1280GB 8卡推理资源配置：125C1207GB 8卡【推荐配置】部署方式：多机分布式部署 CVM 实例规格：HCCPNV6.96XLARGE2304 CVM 实例配置：384C2304GB 8卡 *推理资源配置：380C2214GB 8卡 2个实例**	部署方式：标准部署算力规格：128C1280GB GPU*8（PNV6.32XLARGE1280）
		DeepSeek-R1-0528-AngelACC	部署方式：标准部署 CVM 实例规格：PNV6.32XLARGE1280 CVM 实例配置：128C1280GB 8卡推理资源配置：125C1207GB 8卡	部署方式：标准部署算力规格：128C1280GB GPU*8（PNV6.32XLARGE1280）
		DeepSeek-R1-0528-AngelACC-PD	【最低配置】部署方式：多机分布式部署 CVM 实例规格：HCCPNV6.96XLARGE2304 CVM 实例配置：384C2304GB 8卡 *推理资源配置：380C2214GB 8卡 2个实例** 说明：此模型采用 PD 分离部署，2个实例为1p1d配置，3个实例为2p1d配置，4个实例为2p2d配置，5个实例为3p2d配置，依次类推	-
		DeepSeek-R1-0528	部署方式：标准部署 CVM 实例规格：PNV6.32XLARGE1280 CVM 实例配置：128C1280GB 8卡推理资源配置：125C1207GB 8卡部署方式：多机分布式部署 CVM 实例规格：HCCPNV6.96XLARGE2304 CVM 实例配置：384C2304GB 8卡 *推理资源配置：380C2214GB 8卡 2个实例**	部署方式：标准部署算力规格：128C1280GB GPU*8（PNV6.32XLARGE1280）
		DeepSeek-R1-AngelACC	部署方式：标准部署 CVM 实例规格：PNV6.32XLARGE1280 CVM 实例配置：128C1280GB 8卡推理资源配置：125C1207GB 8卡	部署方式：标准部署算力规格：128C1280GB GPU*8（PNV6.32XLARGE1280）
		DeepSeek-R1-AngelACC-PD	【最低配置】部署方式：多机分布式部署 CVM 实例规格：HCCPNV6.96XLARGE2304 CVM 实例配置：384C2304GB 8卡 *推理资源配置：380C2214GB 8卡 2个实例** 说明：此模型采用 PD 分离部署，2个实例为1p1d配置，3个实例为2p1d配置，4个实例为2p2d配置，5个实例为3p2d配置，依次类推	-
		DeepSeek-R1	部署方式：标准部署 CVM 实例规格：PNV6.32XLARGE1280 CVM 实例配置：128C1280GB 8卡推理资源配置：125C1207GB 8卡部署方式：多机分布式部署 CVM 实例规格：HCCPNV6.96XLARGE2304 CVM 实例配置：384C2304GB 8卡部署方式：多机分布式部署节点数量：2个推理资源配置（每节点）：380C2214GB 8卡	部署方式：标准部署算力规格：128C1280GB GPU*8（PNV6.32XLARGE1280）
		DeepSeek-V3-0324-AngelACC	部署方式：标准部署 CVM 实例规格：PNV6.32XLARGE1280 CVM 实例配置：128C1280GB 8卡推理资源配置：125C1207GB 8卡	部署方式：标准部署算力规格：128C1280GB GPU*8（PNV6.32XLARGE1280）
		DeepSeek-V3-0324-AngelACC-PD	【最低配置】部署方式：多机分布式部署 CVM 实例规格：HCCPNV6.96XLARGE2304 CVM 实例配置：384C2304GB 8卡 *推理资源配置：380C2214GB 8卡 2个实例** 说明：此模型采用 PD 分离部署，2个实例为1p1d配置，3个实例为2p1d配置，4个实例为2p2d配置，5个实例为3p2d配置，依次类推	-
		DeepSeek-V3-0324	部署方式：标准部署 CVM 实例规格：PNV6.32XLARGE1280 CVM 实例配置：128C1280GB 8卡推理资源配置：125C1207GB 8卡【推荐配置】部署方式：多机分布式部署 CVM 实例规格：HCCPNV6.96XLARGE2304 CVM 实例配置：384C2304GB 8卡 *推理资源配置：380C2214GB 8卡 2个实例**	部署方式：标准部署算力规格：128C1280GB GPU*8（PNV6.32XLARGE1280）
		DeepSeek-V3-AngelACC	部署方式：标准部署 CVM 实例规格：PNV6.32XLARGE1280 CVM 实例配置：128C1280GB 8卡推理资源配置：125C1207GB 8卡	部署方式：标准部署算力规格：128C1280GB GPU*8（PNV6.32XLARGE1280）
		DeepSeek-V3	部署方式：标准部署 CVM 实例规格：PNV6.32XLARGE1280 CVM 实例配置：128C1280GB 8卡推理资源配置：125C1207GB 8卡部署方式：多机分布式部署 CVM 实例规格：HCCPNV6.96XLARGE2304 CVM 实例配置：384C2304GB 8卡节点数量：2个推理资源配置（每节点）：380C2214GB 8卡	部署方式：标准部署算力规格：128C1280GB GPU*8（PNV6.32XLARGE1280）
		DeepSeek-Prover-V2-7B	部署方式：标准部署 CVM 实例规格：PNV6.32XLARGE1280 CVM 实例配置：128C1280GB 8卡推理资源配置：125C1207GB 8卡【推荐配置】部署方式：多机分布式部署 CVM 实例规格：HCCPNV6.96XLARGE2304 CVM 实例配置：384C2304GB 8卡 *推理资源配置：380C2214GB 8卡 2个实例**	部署方式：标准部署算力规格：128C1280GB GPU*8（PNV6.32XLARGE1280）
		DeepSeek-Prover-V2-671B	部署方式：标准部署 CVM 实例规格：PNV6.32XLARGE1280 CVM 实例配置：128C1280GB 8卡推理资源配置：125C1207GB 8卡【推荐配置】部署方式：多机分布式部署 CVM 实例规格：HCCPNV6.96XLARGE2304 CVM 实例配置：384C2304GB 8卡 *推理资源配置：380C2214GB 8卡 2个实例**	部署方式：标准部署算力规格：128C1280GB GPU*8（PNV6.32XLARGE1280）
		DeepSeek-R1-Distill-Qwen-1.5B	部署方式：标准部署 CVM 实例规格：GNV4.3XLARGE44 CVM 实例配置：12C44GB 1卡A10 推理资源配置：11C35GB 1卡A10	部署方式：标准部署算力规格：12C44GB 1卡A10
		DeepSeek-R1-Distill-Qwen-7B	部署方式：标准部署 CVM 实例规格：GNV4.3XLARGE44 CVM 实例配置：12C44GB 1卡A10 推理资源配置：11C35GB 1卡A10	部署方式：标准部署算力规格：12C44GB 1卡A10
		DeepSeek-R1-Distill-Qwen-14B	【推荐配置1】部署方式：标准部署 CVM 实例规格：PNV6.4XLARGE160 CVM 实例配置：16C160GB 1卡GPU 推理资源配置：15C144GB 1卡GPU 【推荐配置2】部署方式：标准部署 CVM 实例规格：PNV5b.8XLARGE96 CVM 实例配置：32C96GB 1卡PNV5b 推理资源配置： 30C80GB 1卡PNV5b	【推荐配置1】部署方式：标准部署算力规格：16C160GB GPU*1（PNV6.4XLARGE160）【推荐配置2】部署方式：标准部署算力规格：32C96GB 1卡PNV5b
		DeepSeek-R1-Distill-Qwen-32B-AngelACC	部署方式：标准部署 CVM 实例规格：PNV6.4XLARGE160 CVM 实例配置：16C160GB 1卡推理资源配置：15C144GB 1卡	部署方式：标准部署算力规格：16C160GB GPU*1（PNV6.4XLARGE160）
		DeepSeek-R1-Distill-Qwen-32B	【推荐配置1】部署方式：标准部署 CVM 实例规格：PNV6.4XLARGE160 CVM 实例配置：16C160GB 1卡推理资源配置：15C144GB 1卡【推荐配置2】部署方式：标准部署 CVM 实例规格：PNV5b.16XLARGE192 CVM 实例配置：64C192GB 2卡PNV5b 推理资源配置：62C172GB 2卡PNV5b	【推荐配置1】部署方式：标准部署算力规格：16C160GB GPU*1（PNV6.4XLARGE160）【推荐配置2】部署方式：标准部署算力规格：64C192GB 2卡PNV5b
gpt-oss	gpt-oss-120b	部署方式：标准部署 CVM 实例规格：PNV6.8XLARGE320 CVM 实例配置：32C320GB 2卡推理资源配置：30C288GB 2卡	部署方式：标准部署算力规格：32C320GB GPU*2（PNV6.8XLARGE320）
gpt-oss		gpt-oss-20b	部署方式：标准部署 CVM 实例规格：PNV6.4XLARGE160 CVM 实例配置：16C160GB 1卡推理资源配置：15C144GB 1卡	部署方式：标准部署算力规格：16C160GB GPU*1（PNV6.4XLARGE160）
Kimi-K2	Kimi-K2-Instruct	部署方式：多机分布式部署 CVM 实例规格：HCCPNV6.96XLARGE2304 CVM 实例配置：384C2304GB 8卡 *推理资源配置：380C2214GB 8卡 2个实例**	-
Kimi-K2		Kimi-K2-Instruct-0905	部署方式：多机分布式部署 CVM 实例规格：HCCPNV6.96XLARGE2304 CVM 实例配置：384C2304GB 8卡 *推理资源配置：380C2214GB 8卡 2个实例**	-
Cosmos-Reason1	Cosmos-Reason1	部署方式：标准部署 CVM 实例规格：PNV6.4XLARGE160 CVM 实例配置：16C160GB 1卡推理资源配置：15C144GB 1卡	部署方式：标准部署算力规格：16C160GB GPU*1（PNV6.4XLARGE160）
Qwen3 系列模型	Qwen3-0.6B	部署方式：标准部署 CVM 实例规格：GNV4.3XLARGE44 CVM 实例配置：12C44GB 1卡A10 推理资源配置：11C35GB 1卡A10	部署方式：标准部署算力规格：12C44GB 1卡A10
		Qwen3-1.7B	部署方式：标准部署 CVM 实例规格：GNV4.3XLARGE44 CVM 实例配置：12C44GB 1卡A10 推理资源配置：11C35GB 1卡A10	部署方式：标准部署算力规格：12C44GB 1卡A10
		Qwen3-4B	部署方式：标准部署 CVM 实例规格：GNV4.3XLARGE44 CVM 实例配置：12C44GB 1卡A10 推理资源配置：11C35GB 1卡A10	部署方式：标准部署算力规格：12C44GB 1卡A10
		Qwen3-8B	部署方式：标准部署 CVM 实例规格：PNV6 / HCCPNV6 系列推理资源配置：15C144GB 1卡	部署方式：标准部署算力规格：16C160GB GPU*1（PNV6.4XLARGE160）
		Qwen3-14B	部署方式：标准部署 CVM 实例规格：PNV6 / HCCPNV6 系列推理资源配置：15C144GB 1卡	部署方式：标准部署算力规格：16C160GB GPU*1（PNV6.4XLARGE160）
		Qwen3-30B-A3B	部署方式：标准部署 CVM 实例规格：PNV6 / HCCPNV6 系列推理资源配置：15C144GB 1卡	部署方式：标准部署算力规格：16C160GB GPU*1（PNV6.4XLARGE160）
		Qwen3-32B	部署方式：标准部署 CVM 实例规格：PNV6 / HCCPNV6 系列推理资源配置：15C144GB 1卡	部署方式：标准部署算力规格：16C160GB GPU*1（PNV6.4XLARGE160）
		Qwen3-235B-A22B	部署方式：标准部署 CVM 实例规格：PNV6.32XLARGE1280 CVM 实例配置：128C1280GB 8卡推理资源配置：125C1207GB 8卡	部署方式：标准部署算力规格：128C1280GB GPU*8（PNV6.32XLARGE1280）
		Qwen3-235B-A22B-Instruct-2507	部署方式：标准部署 CVM 实例规格：PNV6.32XLARGE1280 CVM 实例配置：128C1280GB 8卡推理资源配置：125C1207GB 8卡	部署方式：标准部署算力规格：128C1280GB GPU*8（PNV6.32XLARGE1280）
		Qwen3-235B-A22B-Thinking-2507	部署方式：标准部署 CVM 实例规格：PNV6.32XLARGE1280 CVM 实例配置：128C1280GB 8卡推理资源配置：125C1207GB 8卡	部署方式：标准部署算力规格：128C1280GB GPU*8（PNV6.32XLARGE1280）
		Qwen3-0.6B-FP8	部署方式：标准部署 CVM 实例规格：PNV6.4XLARGE160 CVM 实例配置：16C160GB 1卡推理资源配置：15C144GB 1卡	部署方式：标准部署算力规格：16C160GB GPU*1（PNV6.4XLARGE160）
		Qwen3-1.7B-FP8	部署方式：标准部署 CVM 实例规格：PNV6.4XLARGE160 CVM 实例配置：16C160GB 1卡推理资源配置：15C144GB 1卡	部署方式：标准部署算力规格：16C160GB GPU*1（PNV6.4XLARGE160）
		Qwen3-4B-FP8	部署方式：标准部署 CVM 实例规格：PNV6.4XLARGE160 CVM 实例配置：16C160GB 1卡推理资源配置：15C144GB 1卡	部署方式：标准部署算力规格：16C160GB GPU*1（PNV6.4XLARGE160）
		Qwen3-8B-FP8	部署方式：标准部署 CVM 实例规格：PNV6.4XLARGE160 CVM 实例配置：16C160GB 1卡推理资源配置：15C144GB 1卡	部署方式：标准部署算力规格：16C160GB GPU*1（PNV6.4XLARGE160）
		Qwen3-14B-FP8	部署方式：标准部署 CVM 实例规格：PNV6.4XLARGE160 CVM 实例配置：16C160GB 1卡推理资源配置：15C144GB 1卡	部署方式：标准部署算力规格：16C160GB GPU*1（PNV6.4XLARGE160）
		Qwen3-30B-A3B-FP8	部署方式：标准部署 CVM 实例规格：PNV6.4XLARGE160 CVM 实例配置：16C160GB 1卡推理资源配置：15C144GB 1卡	部署方式：标准部署算力规格：16C160GB GPU*1（PNV6.4XLARGE160）
		Qwen3-32B-FP8	部署方式：标准部署 CVM 实例规格：PNV6.4XLARGE160 CVM 实例配置：16C160GB 1卡推理资源配置：15C144GB 1卡	部署方式：标准部署算力规格：16C160GB GPU*1（PNV6.4XLARGE160）
		Qwen3-235B-A22B-FP8	部署方式：标准部署 CVM 实例规格：PNV6.16XLARGE640 CVM 实例配置：64C640GB 4卡推理资源配置：60C600GB 4卡	部署方式：标准部署算力规格：64C640GB GPU*4（PNV6.16XLARGE640）
		Qwen3-235B-A22B-Instruct-2507-FP8	部署方式：标准部署 CVM 实例规格：PNV6.16XLARGE640 CVM 实例配置：64C640GB 4卡推理资源配置：60C600GB 4卡	部署方式：标准部署算力规格：64C640GB GPU*4（PNV6.16XLARGE640）
		Qwen3-235B-A22B-Thinking-2507-FP8	部署方式：标准部署 CVM 实例规格：PNV6.16XLARGE640 CVM 实例配置：64C640GB 4卡推理资源配置：60C600GB 4卡	部署方式：标准部署算力规格：64C640GB GPU*4（PNV6.16XLARGE640）
Qwen3-Coder 系列模型	Qwen3-Coder-480B-A35B-Instruct	部署方式：多机分布式部署 CVM 实例规格：HCCPNV6.96XLARGE2304 CVM 实例配置：384C2304GB 8卡 *推理资源配置：380C2214GB 8卡 2个实例**	-
Qwen3-Coder 系列模型		Qwen3-Coder-480B-A35B-Instruct-FP8	部署方式：标准部署 CVM 实例规格：PNV6.32XLARGE1280 CVM 实例配置：128C1280GB 8卡推理资源配置：125C1207GB 8卡	部署方式：标准部署算力规格：128C1280GB GPU*8（PNV6.32XLARGE1280）
QwQ 系列模型	qwq_32b	部署方式：标准部署 CVM 实例规格：PNV6.4XLARGE160 CVM 实例配置：16C160GB 1卡推理资源配置：15C144GB 1卡	部署方式：标准部署算力规格：16C160GB GPU*1（PNV6.4XLARGE160）
Qwen 系列模型	qwen-14b-base	CVM 实例规格：PNV5b.8XLARGE96 CVM 实例配置：32C96GB 1卡PNV5b 推理资源配置： 30C80GB 1卡PNV5b 部署方式：标准部署	部署方式：标准部署算力规格：32C96GB 1卡PNV5b
Qwen 系列模型		qwen-14b-chat	CVM 实例规格：PNV5b.8XLARGE96 CVM 实例配置：32C96GB 1卡PNV5b 推理资源配置： 30C80GB 1卡PNV5b 部署方式：标准部署	部署方式：标准部署算力规格：32C96GB 1卡PNV5b
Qwen3-VL系列模型	Qwen3-VL-235B-A22B-Instruct	部署方式：标准部署 CVM 实例规格：PNV6.32XLARGE1280 CVM 实例配置：128C1280GB 8卡推理资源配置：125C1207GB 8卡	部署方式：标准部署算力规格：128C1280GB GPU*8（PNV6.32XLARGE1280）
Qwen2.5-VL 系列模型	Qwen2.5-VL-32B-Instruct	部署方式：标准部署 CVM 实例规格：PNV6.8XLARGE320 CVM 实例配置：32C320GB 2卡推理资源配置：30C288GB 2卡	部署方式：标准部署算力规格：32C320GB GPU*2（PNV6.8XLARGE320）
		Qwen2.5-VL-72B-Instruct	部署方式：标准部署 CVM 实例规格：PNV6.16XLARGE640 CVM 实例配置：64C640GB 4卡推理资源配置：60C600GB 4卡	部署方式：标准部署算力规格：64C640GB GPU*4（PNV6.16XLARGE640）
		Qwen2.5-VL-72B-Instruct-AWQ	部署方式：标准部署 CVM 实例规格：PNV6.4XLARGE160 CVM 实例配置：16C160GB 1卡推理资源配置：15C144GB 1卡	部署方式：标准部署算力规格：16C160GB GPU*1（PNV6.4XLARGE160）
Qwen3-Embedding 系列模型	Qwen3-Embedding-8B	部署方式：标准部署 CVM 实例规格：PNV6.4XLARGE160 CVM 实例配置：16C160GB 1卡推理资源配置：15C144GB 1卡	部署方式：标准部署算力规格：16C160GB GPU*1（PNV6.4XLARGE160）
Baichuan2 系列模型	baichuan2-7b-base	CVM 实例规格：PNV4.7XLARGE116 CVM 实例配置：28C116GB 1卡A10 部署方式：标准部署推理资源配置：24C96GB 1卡A10	部署方式：标准部署算力规格：28核116GB 1卡A10
		baichuan2-7b-chat	CVM 实例规格：PNV4.7XLARGE116 CVM 实例配置：28C116GB 1卡A10 部署方式：标准部署推理资源配置：24C96GB 1卡A10	部署方式：标准部署算力规格：28核116GB 1卡A10
		baichuan2-13b-base	CVM 实例规格：PNV5b.8XLARGE96 CVM 实例配置：32C96GB 1卡PNV5b 推理资源配置： 30C80GB 1卡PNV5b 部署方式：标准部署	部署方式：标准部署算力规格：32C96GB 1卡PNV5b
		baichuan2-13b-chat	CVM 实例规格：PNV5b.8XLARGE96 CVM 实例配置：32C96GB 1卡PNV5b 推理资源配置： 30C80GB 1卡PNV5b 部署方式：标准部署	部署方式：标准部署算力规格：32C96GB 1卡PNV5b
Gemma 3系列模型	gemma-3-27b-it	部署方式：标准部署 CVM 实例规格：PNV6.4XLARGE160 CVM 实例配置：16C160GB 1卡推理资源配置：15C144GB 1卡	部署方式：标准部署算力规格：16C160GB GPU*1（PNV6.4XLARGE160）
Gemma 3系列模型		gemma-3-12b-it	部署方式：标准部署 CVM 实例规格：PNV6.4XLARGE160 CVM 实例配置：16C160GB 1卡推理资源配置：15C144GB 1卡	部署方式：标准部署算力规格：16C160GB GPU*1（PNV6.4XLARGE160）
GLM-4.5V系列模型	GLM-4.5V	部署方式：标准部署 CVM 实例规格：PNV6.16XLARGE640 CVM 实例配置：64C640GB 4卡推理资源配置：60C600GB 4卡	部署方式：标准部署算力规格：64C640GB GPU*4（PNV6.16XLARGE640）

大模型推理所需资源指南

本页目录：

内置大模型的推理资源指南