大模型推理所需资源指南

最近更新时间:2025-09-25 15:03:42

我的收藏
本文旨在介绍 TI-ONE 平台进行大模型推理时,可保障模型正常运行的配置资源,仅供您参考。

内置大模型的推理资源指南

注意:
1. 各机型库存及价格请前往 CVM 控制台 查看,可参考 CVM-实例创建指引。其中 PNV6/HCCPNV6 机型需联系您所对接的腾讯云销售进行开通和购买
2. 在部署 DeepSeek V3 或 R1 模型时,如仅需低并发体验,可使用单节点部署;如果您对推理性能以及上下文长度有较高要求,且算力资源充足,推荐使用至少2节点部署。
3. 下表的推理资源配置略小于 CVM 实例配置,是因为 TI 平台管理 CVM 机器时将占用少量资源。例如:某 CVM 实例规格包含128核,添加至资源组后的可用资源为125.6核。
内置大模型
模型清单
推理资源推荐
机器来源:从 CVM 机器中选择(包年包月)
机器来源:从 TI-ONE 平台购买(按量计费)
Hunyuan-Large
Hunyuan-Large-chat
部署方式:标准部署(开 nf4 量化)
【推荐配置1】
CVM 实例规格:PNV6.96XLARGE2304
CVM 实例配置:384C2304GB 8卡
推理资源配置:380C2214GB 8卡

【推荐配置2】
CVM 实例规格:HCCPNV4h.48XLARGE1024
CVM 实例配置:192核1024GB 8卡A100
推理资源配置: 189核980GB 8卡A100
Hunyuan-A13B
Hunyuan-A13B-Instruct
部署方式:标准部署
CVM 实例规格:PNV6.16XLARGE640
CVM 实例配置:64C640GB 4卡
推理资源配置:60C600GB 4卡
部署方式:标准部署
算力规格:64C640GB GPU*4(PNV6.16XLARGE640)
DeepSeek 系列模型
DeepSeek-V3.1-Terminus
【最低配置】
部署方式:标准部署
CVM 实例规格:PNV6.32XLARGE1280
CVM 实例配置:128C1280GB 8卡
推理资源配置:125C1207GB 8卡

【推荐配置】
部署方式:多机分布式部署
CVM 实例规格:HCCPNV6.96XLARGE2304
CVM 实例配置:384C2304GB 8卡
推理资源配置:380C2214GB 8卡 * 2个实例
部署方式:标准部署
算力规格:128C1280GB GPU*8(PNV6.32XLARGE1280)

DeepSeek-V3.1
【最低配置】
部署方式:标准部署
CVM 实例规格:PNV6.32XLARGE1280
CVM 实例配置:128C1280GB 8卡
推理资源配置:125C1207GB 8卡

【推荐配置】
部署方式:多机分布式部署
CVM 实例规格:HCCPNV6.96XLARGE2304
CVM 实例配置:384C2304GB 8卡
推理资源配置:380C2214GB 8卡 * 2个实例
部署方式:标准部署
算力规格:128C1280GB GPU*8(PNV6.32XLARGE1280)

DeepSeek-R1-0528-AngelACC
部署方式:标准部署
CVM 实例规格:PNV6.32XLARGE1280
CVM 实例配置:128C1280GB 8卡
推理资源配置:125C1207GB 8卡
部署方式:标准部署
算力规格:128C1280GB GPU*8(PNV6.32XLARGE1280)
DeepSeek-R1-0528-AngelACC-PD
【最低配置】部署方式:多机分布式部署
CVM 实例规格:HCCPNV6.96XLARGE2304
CVM 实例配置:384C2304GB 8卡
推理资源配置:380C2214GB 8卡 * 2个实例
说明:此模型采用 PD 分离部署,2个实例为1p1d配置,3个实例为2p1d配置,4个实例为2p2d配置,5个实例为3p2d配置,依次类推
-
DeepSeek-R1-0528
部署方式:标准部署
CVM 实例规格:PNV6.32XLARGE1280
CVM 实例配置:128C1280GB 8卡
推理资源配置:125C1207GB 8卡

部署方式:多机分布式部署
CVM 实例规格:HCCPNV6.96XLARGE2304
CVM 实例配置:384C2304GB 8卡
推理资源配置:380C2214GB 8卡 * 2个实例
部署方式:标准部署
算力规格:128C1280GB GPU*8(PNV6.32XLARGE1280)
DeepSeek-R1-AngelACC
部署方式:标准部署
CVM 实例规格:PNV6.32XLARGE1280
CVM 实例配置:128C1280GB 8卡
推理资源配置:125C1207GB 8卡
部署方式:标准部署
算力规格:128C1280GB GPU*8(PNV6.32XLARGE1280)
DeepSeek-R1-AngelACC-PD
【最低配置】部署方式:多机分布式部署
CVM 实例规格:HCCPNV6.96XLARGE2304
CVM 实例配置:384C2304GB 8卡
推理资源配置:380C2214GB 8卡 * 2个实例
说明:此模型采用 PD 分离部署,2个实例为1p1d配置,3个实例为2p1d配置,4个实例为2p2d配置,5个实例为3p2d配置,依次类推
-
DeepSeek-R1
部署方式:标准部署
CVM 实例规格:PNV6.32XLARGE1280
CVM 实例配置:128C1280GB 8卡
推理资源配置:125C1207GB 8卡

部署方式:多机分布式部署
CVM 实例规格:HCCPNV6.96XLARGE2304
CVM 实例配置:384C2304GB 8卡
部署方式:多机分布式部署
节点数量:2个
推理资源配置(每节点):380C2214GB 8卡
部署方式:标准部署
算力规格:128C1280GB GPU*8(PNV6.32XLARGE1280)

DeepSeek-V3-0324-AngelACC
部署方式:标准部署
CVM 实例规格:PNV6.32XLARGE1280
CVM 实例配置:128C1280GB 8卡
推理资源配置:125C1207GB 8卡
部署方式:标准部署
算力规格:128C1280GB GPU*8(PNV6.32XLARGE1280)
DeepSeek-V3-0324-AngelACC-PD
【最低配置】部署方式:多机分布式部署
CVM 实例规格:HCCPNV6.96XLARGE2304
CVM 实例配置:384C2304GB 8卡
推理资源配置:380C2214GB 8卡 * 2个实例
说明:此模型采用 PD 分离部署,2个实例为1p1d配置,3个实例为2p1d配置,4个实例为2p2d配置,5个实例为3p2d配置,依次类推
-
DeepSeek-V3-0324
部署方式:标准部署
CVM 实例规格:PNV6.32XLARGE1280
CVM 实例配置:128C1280GB 8卡
推理资源配置:125C1207GB 8卡

【推荐配置】部署方式:多机分布式部署
CVM 实例规格:HCCPNV6.96XLARGE2304
CVM 实例配置:384C2304GB 8卡
推理资源配置:380C2214GB 8卡 * 2个实例
部署方式:标准部署
算力规格:128C1280GB GPU*8(PNV6.32XLARGE1280)
DeepSeek-V3-AngelACC
部署方式:标准部署
CVM 实例规格:PNV6.32XLARGE1280
CVM 实例配置:128C1280GB 8卡
推理资源配置:125C1207GB 8卡
部署方式:标准部署
算力规格:128C1280GB GPU*8(PNV6.32XLARGE1280)
DeepSeek-V3
部署方式:标准部署
CVM 实例规格:PNV6.32XLARGE1280
CVM 实例配置:128C1280GB 8卡
推理资源配置:125C1207GB 8卡

部署方式:多机分布式部署
CVM 实例规格:HCCPNV6.96XLARGE2304
CVM 实例配置:384C2304GB 8卡
节点数量:2个
推理资源配置(每节点):380C2214GB 8卡
部署方式:标准部署
算力规格:128C1280GB GPU*8(PNV6.32XLARGE1280)
DeepSeek-Prover-V2-7B
部署方式:标准部署
CVM 实例规格:PNV6.32XLARGE1280
CVM 实例配置:128C1280GB 8卡
推理资源配置:125C1207GB 8卡

【推荐配置】部署方式:多机分布式部署
CVM 实例规格:HCCPNV6.96XLARGE2304
CVM 实例配置:384C2304GB 8卡
推理资源配置:380C2214GB 8卡 * 2个实例
部署方式:标准部署
算力规格:128C1280GB GPU*8(PNV6.32XLARGE1280)

DeepSeek-Prover-V2-671B
部署方式:标准部署
CVM 实例规格:PNV6.32XLARGE1280
CVM 实例配置:128C1280GB 8卡
推理资源配置:125C1207GB 8卡

【推荐配置】部署方式:多机分布式部署
CVM 实例规格:HCCPNV6.96XLARGE2304
CVM 实例配置:384C2304GB 8卡
推理资源配置:380C2214GB 8卡 * 2个实例
部署方式:标准部署
算力规格:128C1280GB GPU*8(PNV6.32XLARGE1280)
DeepSeek-R1-Distill-Qwen-1.5B
部署方式:标准部署
CVM 实例规格:GNV4.3XLARGE44
CVM 实例配置:12C44GB 1卡A10
推理资源配置:11C35GB 1卡A10
部署方式:标准部署
算力规格:12C44GB 1卡A10
DeepSeek-R1-Distill-Qwen-7B
部署方式:标准部署
CVM 实例规格:GNV4.3XLARGE44
CVM 实例配置:12C44GB 1卡A10
推理资源配置:11C35GB 1卡A10
部署方式:标准部署
算力规格:12C44GB 1卡A10
DeepSeek-R1-Distill-Llama-8B
部署方式:标准部署
CVM 实例规格:GNV4.3XLARGE44
CVM 实例配置:12C44GB 1卡A10
推理资源配置:11C35GB 1卡A10
部署方式:标准部署
算力规格:12C44GB 1卡A10
DeepSeek-R1-Distill-Qwen-14B
【推荐配置1】部署方式:标准部署
CVM 实例规格:PNV6.4XLARGE160
CVM 实例配置:16C160GB 1卡GPU
推理资源配置:15C144GB 1卡GPU

【推荐配置2】部署方式:标准部署
CVM 实例规格:PNV5b.8XLARGE96
CVM 实例配置:32C96GB 1卡PNV5b
推理资源配置: 30C80GB 1卡PNV5b
【推荐配置1】
部署方式:标准部署
算力规格:16C160GB GPU*1(PNV6.4XLARGE160)
【推荐配置2】
部署方式:标准部署
算力规格:32C96GB 1卡PNV5b
DeepSeek-R1-Distill-Qwen-32B-AngelACC
部署方式:标准部署
CVM 实例规格:PNV6.4XLARGE160
CVM 实例配置:16C160GB 1卡
推理资源配置:15C144GB 1卡
部署方式:标准部署
算力规格:16C160GB GPU*1(PNV6.4XLARGE160)
DeepSeek-R1-Distill-Qwen-32B
【推荐配置1】部署方式:标准部署
CVM 实例规格:PNV6.4XLARGE160
CVM 实例配置:16C160GB 1卡
推理资源配置:15C144GB 1卡

【推荐配置2】部署方式:标准部署
CVM 实例规格:PNV5b.16XLARGE192
CVM 实例配置:64C192GB 2卡PNV5b
推理资源配置:62C172GB 2卡PNV5b
【推荐配置1】
部署方式:标准部署
算力规格:16C160GB GPU*1(PNV6.4XLARGE160)
【推荐配置2】
部署方式:标准部署
算力规格:64C192GB 2卡PNV5b
DeepSeek-R1-Distill-Llama-70B
【推荐配置1】部署方式:标准部署
CVM 实例规格:PNV6.8XLARGE320
CVM 实例配置1:32C320GB 2卡GPU
推理资源配置:31C290GB 2卡GPU

【推荐配置2】部署方式:标准部署
CVM 实例规格:PNV5b.32XLARGE384
CVM 实例配置:128C384GB 4卡PNV5b
推理资源配置:125C350GB 4卡PNV5b
【推荐配置1】
部署方式:标准部署
算力规格:32C320GB GPU*2(PNV6.8XLARGE320)
【推荐配置2】
部署方式:标准部署
算力规格:128C384GB 4卡PNV5b
gpt-oss
gpt-oss-120b
部署方式:标准部署
CVM 实例规格:PNV6.8XLARGE320
CVM 实例配置:32C320GB 2卡
推理资源配置:30C288GB 2卡
部署方式:标准部署
算力规格:32C320GB GPU*2(PNV6.8XLARGE320)
gpt-oss-20b
部署方式:标准部署
CVM 实例规格:PNV6.4XLARGE160
CVM 实例配置:16C160GB 1卡
推理资源配置:15C144GB 1卡
部署方式:标准部署
算力规格:16C160GB GPU*1(PNV6.4XLARGE160)
Kimi-K2
Kimi-K2-Instruct
部署方式:多机分布式部署
CVM 实例规格:HCCPNV6.96XLARGE2304
CVM 实例配置:384C2304GB 8卡
推理资源配置:380C2214GB 8卡 * 2个实例
-
Kimi-K2-Instruct-0905
部署方式:多机分布式部署
CVM 实例规格:HCCPNV6.96XLARGE2304
CVM 实例配置:384C2304GB 8卡
推理资源配置:380C2214GB 8卡 * 2个实例
-
Cosmos-Reason1
Cosmos-Reason1
部署方式:标准部署
CVM 实例规格:PNV6.4XLARGE160
CVM 实例配置:16C160GB 1卡
推理资源配置:15C144GB 1卡
部署方式:标准部署
算力规格:16C160GB GPU*1(PNV6.4XLARGE160)
Llama4 系列模型
Llama-4-Scout-17B-16E-Instruct
部署方式:标准部署
CVM 实例规格:PNV6.4XLARGE160
CVM 实例配置:16C160GB 1卡
推理资源配置:15C144GB 1卡
部署方式:标准部署
算力规格:16C160GB GPU*1(PNV6.4XLARGE160)
Llama-4-Scout-17B-16
部署方式:标准部署
CVM 实例规格:PNV6.4XLARGE160
CVM 实例配置:16C160GB 1卡
推理资源配置:15C144GB 1卡
部署方式:标准部署
算力规格:16C160GB GPU*1(PNV6.4XLARGE160)
Llama-4-Maverick-17B-128E-Instruct-FP8
部署方式:标准部署
CVM 实例规格:PNV6.32XLARGE1280
CVM 实例配置:128C1280GB 8卡
推理资源配置:125C1207GB 8卡
部署方式:标准部署
算力规格:128C1280GB GPU*8(PNV6.32XLARGE1280)
Llama-4-Maverick-17B-128E-Instruct
部署方式:标准部署
CVM 实例规格:HCCPNV6s.96XLARGE2304
CVM 实例配置:384C2304GB 8卡
推理资源配置:380C2214GB 8卡
-
Llama-4-Maverick-17B-128E
部署方式:标准部署
CVM 实例规格:HCCPNV6s.96XLARGE2304
CVM 实例配置:384C2304GB 8卡
推理资源配置:380C2214GB 8卡
-
Llama3.2 系列模型
llama-3.2-1b-chat
部署方式:标准部署
CVM 实例规格:PNV4.7XLARGE116
CVM 实例配置:28C116GB 1卡A10
推理资源配置:24C96GB 1卡A10
部署方式:标准部署
算力规格:28核116GB 1卡A10
llama-3.2-1b
部署方式:标准部署
CVM 实例规格:PNV4.7XLARGE116
CVM 实例配置:28C116GB 1卡A10
推理资源配置:24C96GB 1卡A10
部署方式:标准部署
算力规格:28核116GB 1卡A10
llama-3.2-3b-chat
部署方式:标准部署
CVM 实例规格:PNV4.7XLARGE116
CVM 实例配置:28C116GB 1卡A10
推理资源配置:24C96GB 1卡A10
部署方式:标准部署
算力规格:28核116GB 1卡A10
llama-3.2-3b
部署方式:标准部署
CVM 实例规格:PNV4.7XLARGE116
CVM 实例配置:28C116GB 1卡A10
推理资源配置:24C96GB 1卡A10
部署方式:标准部署
算力规格:28核116GB 1卡A10
llama-3.2-11b-vision-chat
部署方式:标准部署
CVM 实例规格:PNV5b.8XLARGE96
CVM 实例配置:32C96GB 1卡PNV5b
推理资源配置: 30C80GB 1卡PNV5b
部署方式:标准部署
算力规格:32C96GB 1卡PNV5b
llama-3.2-90b-vision-chat
部署方式:标准部署
CVM 实例规格:PNV5b.64XLARGE768
CVM 实例配置:256C768GB 8卡PNV5b
推理资源配置: 250C688GB 8卡PNV5b
部署方式:标准部署
算力规格:256C768GB 8卡PNV5b
Llama3.1 系列模型
llama-3.1-8b-chat
部署方式:标准部署
CVM 实例规格:PNV4.7XLARGE116
CVM 实例配置:28C116GB 1卡A10
推理资源配置:24C96GB 1卡A10
部署方式:标准部署
算力规格:28核116GB 1卡A10
llama-3.1-70b-chat
部署方式:标准部署
CVM 实例规格:PNV5b.64XLARGE768
CVM 实例配置:256C768GB 8卡PNV5b
推理资源配置: 250C688GB 8卡PNV5b
部署方式:标准部署
算力规格:256C768GB 8卡PNV5b
llama-3.1-8b-base
部署方式:标准部署
CVM 实例规格:PNV4.7XLARGE116
CVM 实例配置:28C116GB 1卡A10
推理资源配置:24C96GB 1卡A10
部署方式:标准部署
算力规格:28核116GB 1卡A10
llama-3.1-70b-base
部署方式:标准部署
CVM 实例规格:PNV5b.64XLARGE768
CVM 实例配置:256C768GB 8卡PNV5b
推理资源配置: 250C688GB 8卡PNV5b
部署方式:标准部署
算力规格:256C768GB 8卡PNV5b
Llama3 系列模型
llama-3-8b-chat
部署方式:标准部署
CVM 实例规格:PNV4.7XLARGE116
CVM 实例配置:28C116GB 1卡A10
推理资源配置:24C96GB 1卡A10
部署方式:标准部署
算力规格:28核116GB 1卡A10
llama-3-70b-chat
部署方式:标准部署
CVM 实例规格:PNV5b.64XLARGE768
CVM 实例配置:256C768GB 8卡PNV5b
推理资源配置: 250C688GB 8卡PNV5b
部署方式:标准部署
算力规格:256C768GB 8卡PNV5b
llama-3-8b-base
部署方式:标准部署
CVM 实例规格:PNV4.7XLARGE116
CVM 实例配置:28C116GB 1卡A10
推理资源配置:24C96GB 1卡A10
部署方式:标准部署
算力规格:28核116GB 1卡A10
llama-3-70b-base
部署方式:标准部署
CVM 实例规格:PNV5b.64XLARGE768
CVM 实例配置:256C768GB 8卡PNV5b
推理资源配置: 250C688GB 8卡PNV5b
部署方式:标准部署
算力规格:256C768GB 8卡PNV5b
Llama2 系列模型
llama-2-7b-chat
部署方式:标准部署
CVM 实例规格:PNV4.7XLARGE116
CVM 实例配置:28C116GB 1卡A10
推理资源配置:24C96GB 1卡A10
部署方式:标准部署
算力规格:28核116GB 1卡A10
llama-2-13b-chat
部署方式:标准部署
CVM 实例规格:PNV5b.8XLARGE96
CVM 实例配置:32C96GB 1卡PNV5b
推理资源配置: 30C80GB 1卡PNV5b
部署方式:标准部署
算力规格:32C96GB 1卡PNV5b
llama-2-70b-chat
部署方式:标准部署
CVM 实例规格:PNV5b.64XLARGE768
CVM 实例配置:256C768GB 8卡PNV5b
推理资源配置: 250C688GB 8卡PNV5b
部署方式:标准部署
算力规格:256C768GB 8卡PNV5b
llama-2-7b-base
部署方式:标准部署
CVM 实例规格:PNV4.7XLARGE116
CVM 实例配置:28C116GB 1卡A10
推理资源配置:24C96GB 1卡A10
部署方式:标准部署
算力规格:28核116GB 1卡A10
llama-2-13b-base
部署方式:标准部署
CVM 实例规格:PNV5b.8XLARGE96
CVM 实例配置:32C96GB 1卡PNV5b
推理资源配置: 30C80GB 1卡PNV5b
部署方式:标准部署
算力规格:32C96GB 1卡PNV5b
llama-2-70b-base
部署方式:标准部署
CVM 实例规格:PNV5b.64XLARGE768
CVM 实例配置:256C768GB 8卡PNV5b
推理资源配置: 250C688GB 8卡PNV5b
部署方式:标准部署
算力规格:256C768GB 8卡PNV5b
Qwen3 系列模型
Qwen3-0.6B
部署方式:标准部署
CVM 实例规格:GNV4.3XLARGE44
CVM 实例配置:12C44GB 1卡A10
推理资源配置:11C35GB 1卡A10
部署方式:标准部署
算力规格:12C44GB 1卡A10
Qwen3-1.7B
部署方式:标准部署
CVM 实例规格:GNV4.3XLARGE44
CVM 实例配置:12C44GB 1卡A10
推理资源配置:11C35GB 1卡A10
部署方式:标准部署
算力规格:12C44GB 1卡A10
Qwen3-4B
部署方式:标准部署
CVM 实例规格:GNV4.3XLARGE44
CVM 实例配置:12C44GB 1卡A10
推理资源配置:11C35GB 1卡A10
部署方式:标准部署
算力规格:12C44GB 1卡A10
Qwen3-8B
部署方式:标准部署
CVM 实例规格:PNV6 / HCCPNV6 系列
推理资源配置:15C144GB 1卡
部署方式:标准部署
算力规格:16C160GB GPU*1(PNV6.4XLARGE160)
Qwen3-14B
部署方式:标准部署
CVM 实例规格:PNV6 / HCCPNV6 系列
推理资源配置:15C144GB 1卡
部署方式:标准部署
算力规格:16C160GB GPU*1(PNV6.4XLARGE160)
Qwen3-30B-A3B
部署方式:标准部署
CVM 实例规格:PNV6 / HCCPNV6 系列
推理资源配置:15C144GB 1卡
部署方式:标准部署
算力规格:16C160GB GPU*1(PNV6.4XLARGE160)
Qwen3-32B
部署方式:标准部署
CVM 实例规格:PNV6 / HCCPNV6 系列
推理资源配置:15C144GB 1卡
部署方式:标准部署
算力规格:16C160GB GPU*1(PNV6.4XLARGE160)
Qwen3-235B-A22B
部署方式:标准部署
CVM 实例规格:PNV6.32XLARGE1280
CVM 实例配置:128C1280GB 8卡
推理资源配置:125C1207GB 8卡
部署方式:标准部署
算力规格:128C1280GB GPU*8(PNV6.32XLARGE1280)
Qwen3-235B-A22B-Instruct-2507
部署方式:标准部署
CVM 实例规格:PNV6.32XLARGE1280
CVM 实例配置:128C1280GB 8卡
推理资源配置:125C1207GB 8卡
部署方式:标准部署
算力规格:128C1280GB GPU*8(PNV6.32XLARGE1280)
Qwen3-235B-A22B-Thinking-2507
部署方式:标准部署
CVM 实例规格:PNV6.32XLARGE1280
CVM 实例配置:128C1280GB 8卡
推理资源配置:125C1207GB 8卡
部署方式:标准部署
算力规格:128C1280GB GPU*8(PNV6.32XLARGE1280)
Qwen3-0.6B-FP8
部署方式:标准部署
CVM 实例规格:PNV6.4XLARGE160
CVM 实例配置:16C160GB 1卡
推理资源配置:15C144GB 1卡
部署方式:标准部署
算力规格:16C160GB GPU*1(PNV6.4XLARGE160)
Qwen3-1.7B-FP8
部署方式:标准部署
CVM 实例规格:PNV6.4XLARGE160
CVM 实例配置:16C160GB 1卡
推理资源配置:15C144GB 1卡
部署方式:标准部署
算力规格:16C160GB GPU*1(PNV6.4XLARGE160)
Qwen3-4B-FP8
部署方式:标准部署
CVM 实例规格:PNV6.4XLARGE160
CVM 实例配置:16C160GB 1卡
推理资源配置:15C144GB 1卡
部署方式:标准部署
算力规格:16C160GB GPU*1(PNV6.4XLARGE160)
Qwen3-8B-FP8
部署方式:标准部署
CVM 实例规格:PNV6.4XLARGE160
CVM 实例配置:16C160GB 1卡
推理资源配置:15C144GB 1卡
部署方式:标准部署
算力规格:16C160GB GPU*1(PNV6.4XLARGE160)
Qwen3-14B-FP8
部署方式:标准部署
CVM 实例规格:PNV6.4XLARGE160
CVM 实例配置:16C160GB 1卡
推理资源配置:15C144GB 1卡
部署方式:标准部署
算力规格:16C160GB GPU*1(PNV6.4XLARGE160)
Qwen3-30B-A3B-FP8
部署方式:标准部署
CVM 实例规格:PNV6.4XLARGE160
CVM 实例配置:16C160GB 1卡
推理资源配置:15C144GB 1卡
部署方式:标准部署
算力规格:16C160GB GPU*1(PNV6.4XLARGE160)
Qwen3-32B-FP8
部署方式:标准部署
CVM 实例规格:PNV6.4XLARGE160
CVM 实例配置:16C160GB 1卡
推理资源配置:15C144GB 1卡
部署方式:标准部署
算力规格:16C160GB GPU*1(PNV6.4XLARGE160)
Qwen3-235B-A22B-FP8
部署方式:标准部署
CVM 实例规格:PNV6.16XLARGE640
CVM 实例配置:64C640GB 4卡
推理资源配置:60C600GB 4卡
部署方式:标准部署
算力规格:64C640GB GPU*4(PNV6.16XLARGE640)
Qwen3-235B-A22B-Instruct-2507-FP8
部署方式:标准部署
CVM 实例规格:PNV6.16XLARGE640
CVM 实例配置:64C640GB 4卡
推理资源配置:60C600GB 4卡
部署方式:标准部署
算力规格:64C640GB GPU*4(PNV6.16XLARGE640)
Qwen3-235B-A22B-Thinking-2507-FP8
部署方式:标准部署
CVM 实例规格:PNV6.16XLARGE640
CVM 实例配置:64C640GB 4卡
推理资源配置:60C600GB 4卡
部署方式:标准部署
算力规格:64C640GB GPU*4(PNV6.16XLARGE640)
Qwen3-Coder 系列模型
Qwen3-Coder-480B-A35B-Instruct
部署方式:多机分布式部署
CVM 实例规格:HCCPNV6.96XLARGE2304
CVM 实例配置:384C2304GB 8卡
推理资源配置:380C2214GB 8卡 * 2个实例
-
Qwen3-Coder-480B-A35B-Instruct-FP8
部署方式:标准部署
CVM 实例规格:PNV6.32XLARGE1280
CVM 实例配置:128C1280GB 8卡
推理资源配置:125C1207GB 8卡
部署方式:标准部署
算力规格:128C1280GB GPU*8(PNV6.32XLARGE1280)
QwQ 系列模型
qwq_32b
部署方式:标准部署
CVM 实例规格:PNV6.4XLARGE160
CVM 实例配置:16C160GB 1卡
推理资源配置:15C144GB 1卡
部署方式:标准部署
算力规格:16C160GB GPU*1(PNV6.4XLARGE160)
Qwen 系列模型
qwen-14b-base
CVM 实例规格:PNV5b.8XLARGE96
CVM 实例配置:32C96GB 1卡PNV5b
推理资源配置: 30C80GB 1卡PNV5b
部署方式:标准部署
部署方式:标准部署
算力规格:32C96GB 1卡PNV5b
qwen-14b-chat
CVM 实例规格:PNV5b.8XLARGE96
CVM 实例配置:32C96GB 1卡PNV5b
推理资源配置: 30C80GB 1卡PNV5b
部署方式:标准部署
部署方式:标准部署
算力规格:32C96GB 1卡PNV5b
Qwen2.5-VL 系列模型
Qwen2.5-VL-32B-Instruct
部署方式:标准部署
CVM 实例规格:PNV6.8XLARGE320
CVM 实例配置:32C320GB 2卡
推理资源配置:30C288GB 2卡
部署方式:标准部署
算力规格:32C320GB GPU*2(PNV6.8XLARGE320)
Qwen2.5-VL-72B-Instruct
部署方式:标准部署
CVM 实例规格:PNV6.16XLARGE640
CVM 实例配置:64C640GB 4卡
推理资源配置:60C600GB 4卡
部署方式:标准部署
算力规格:64C640GB GPU*4(PNV6.16XLARGE640)
Qwen2.5-VL-72B-Instruct-AWQ
部署方式:标准部署
CVM 实例规格:PNV6.4XLARGE160
CVM 实例配置:16C160GB 1卡
推理资源配置:15C144GB 1卡
部署方式:标准部署
算力规格:16C160GB GPU*1(PNV6.4XLARGE160)
Qwen3-Embedding 系列模型
Qwen3-Embedding-8B
部署方式:标准部署
CVM 实例规格:PNV6.4XLARGE160
CVM 实例配置:16C160GB 1卡
推理资源配置:15C144GB 1卡
部署方式:标准部署
算力规格:16C160GB GPU*1(PNV6.4XLARGE160)
Baichuan2 系列模型
baichuan2-7b-base
CVM 实例规格:PNV4.7XLARGE116
CVM 实例配置:28C116GB 1卡A10
部署方式:标准部署
推理资源配置:24C96GB 1卡A10
部署方式:标准部署
算力规格:28核116GB 1卡A10
baichuan2-7b-chat
CVM 实例规格:PNV4.7XLARGE116
CVM 实例配置:28C116GB 1卡A10
部署方式:标准部署
推理资源配置:24C96GB 1卡A10
部署方式:标准部署
算力规格:28核116GB 1卡A10
baichuan2-13b-base
CVM 实例规格:PNV5b.8XLARGE96
CVM 实例配置:32C96GB 1卡PNV5b
推理资源配置: 30C80GB 1卡PNV5b
部署方式:标准部署
部署方式:标准部署
算力规格:32C96GB 1卡PNV5b
baichuan2-13b-chat
CVM 实例规格:PNV5b.8XLARGE96
CVM 实例配置:32C96GB 1卡PNV5b
推理资源配置: 30C80GB 1卡PNV5b
部署方式:标准部署
部署方式:标准部署
算力规格:32C96GB 1卡PNV5b
Chatglm 系列模型
chatglm3-6b-chat
CVM 实例规格:PNV4.7XLARGE116
CVM 实例配置:28C116GB 1卡A10
部署方式:标准部署
推理资源配置:24C96GB 1卡A10
部署方式:标准部署
算力规格:28核116GB 1卡A10
Gemma 3系列模型
gemma-3-27b-it
部署方式:标准部署
CVM 实例规格:PNV6.4XLARGE160
CVM 实例配置:16C160GB 1卡
推理资源配置:15C144GB 1卡
部署方式:标准部署
算力规格:16C160GB GPU*1(PNV6.4XLARGE160)
gemma-3-12b-it
部署方式:标准部署
CVM 实例规格:PNV6.4XLARGE160
CVM 实例配置:16C160GB 1卡
推理资源配置:15C144GB 1卡
部署方式:标准部署
算力规格:16C160GB GPU*1(PNV6.4XLARGE160)
GLM-4.5V系列模型
GLM-4.5V
部署方式:标准部署
CVM 实例规格:PNV6.16XLARGE640
CVM 实例配置:64C640GB 4卡
推理资源配置:60C600GB 4卡
部署方式:标准部署
算力规格:64C640GB GPU*4(PNV6.16XLARGE640)
Bloom 系列模型
bloom-7b-chat
CVM 实例规格:PNV4.7XLARGE116
CVM 实例配置:28C116GB 1卡A10
部署方式:标准部署
推理资源配置:24C96GB 1卡A10
部署方式:标准部署
算力规格:28核116GB 1卡A10
bloomz-7b1-chat
CVM 实例规格:PNV4.7XLARGE116
CVM 实例配置:28C116GB 1卡A10
部署方式:标准部署
推理资源配置:24C96GB 1卡A10
部署方式:标准部署
算力规格:28核116GB 1卡A10
bloom-1b1-chat
CVM 实例规格:PNV4.7XLARGE116
CVM 实例配置:28C116GB 1卡A10
部署方式:标准部署
推理资源配置:24C96GB 1卡A10
部署方式:标准部署
算力规格:28核116GB 1卡A10
bloom-3b-chat
CVM 实例规格:PNV4.7XLARGE116
CVM 实例配置:28C116GB 1卡A10
部署方式:标准部署
推理资源配置:24C96GB 1卡A10
部署方式:标准部署
算力规格:28核116GB 1卡A10
bloomz-3b-chat
CVM 实例规格:PNV4.7XLARGE116
CVM 实例配置:28C116GB 1卡A10
部署方式:标准部署
推理资源配置:24C96GB 1卡A10
部署方式:标准部署
算力规格:28核116GB 1卡A10
Dolly 系列模型
dolly-v2-3b-chat
CVM 实例规格:PNV4.7XLARGE116
CVM 实例配置:28C116GB 1卡A10
部署方式:标准部署
推理资源配置:24C96GB 1卡A10
部署方式:标准部署
算力规格:28核116GB 1卡A10
dolly-v2-7b-chat
CVM 实例规格:PNV4.7XLARGE116
CVM 实例配置:28C116GB 1卡A10
部署方式:标准部署
推理资源配置:24C96GB 1卡A10
部署方式:标准部署
算力规格:28核116GB 1卡A10
dolly-v2-12b-chat
CVM 实例规格:PNV5b.8XLARGE96
CVM 实例配置:32C96GB 1卡PNV5b
推理资源配置: 30C80GB 1卡PNV5b
部署方式:标准部署
部署方式:标准部署
算力规格:32C96GB 1卡PNV5b
Vicuna 系列模型
vicuna-7b-v1.5-chat
CVM 实例规格:PNV4.7XLARGE116
CVM 实例配置:28C116GB 1卡A10
部署方式:标准部署
推理资源配置:24C96GB 1卡A10
部署方式:标准部署
算力规格:28核116GB 1卡A10
vicuna-13b-v1.5-chat
CVM 实例规格:PNV5b.8XLARGE96
CVM 实例配置:32C96GB 1卡PNV5b
推理资源配置: 30C80GB 1卡PNV5b
部署方式:标准部署
部署方式:标准部署
算力规格:32C96GB 1卡PNV5b
Falcon 系列模型
falcon-7b-base
CVM 实例规格:PNV4.7XLARGE116
CVM 实例配置:28C116GB 1卡A10
部署方式:标准部署
推理资源配置:24C96GB 1卡A10
部署方式:标准部署
算力规格:28核116GB 1卡A10
falcon-7b-chat
CVM 实例规格:PNV4.7XLARGE116
CVM 实例配置:28C116GB 1卡A10
部署方式:标准部署
推理资源配置:24C96GB 1卡A10
部署方式:标准部署
算力规格:28核116GB 1卡A10
falcon-rw-7b-base
CVM 实例规格:PNV4.7XLARGE116
CVM 实例配置:28C116GB 1卡A10
部署方式:标准部署
推理资源配置:24C96GB 1卡A10
部署方式:标准部署
算力规格:28核116GB 1卡A10
Chinese-alpaca 系列模型
chinese-alpaca-2-7b-chat
CVM 实例规格:PNV4.7XLARGE116
CVM 实例配置:28C116GB 1卡A10
部署方式:标准部署
推理资源配置:24C96GB 1卡A10
部署方式:标准部署
算力规格:28核116GB 1卡A10