TI-ONE 训练平台大模型推理参数指南

模型系列
模型清单
推理镜像
推理通用环境变量
推理非通用环境变量
Hunyuan 系列模型
Hunyuan-Large-Instruct
angel-vllm-0.6.2-ti-2.1.6-dev20250627
QUANTIZATION：量化方式，默认不指定；
MAX_MODEL_LEN：上下文长度，默认自动；
GPU_MEMORY_UTILIZATION：GPU显存预留比例，默认0.9。
USE_LOOKAHEAD：默认为"0"，设置为"1"表示开启 Lookahead 并行解码，很多场景下可以显著加快解码速度；
NUM_SPECULATIVE_TOKENS：默认为"6"，表示 Lookahead 并行解码一次解码长度，若实际需要支持的并发数较大，可以调小此值，并发数小，可以调大此值；
ENFORCE_EAGER：是否强制开启 PyTorch 的 eager 模式，默认 false ，此时会额外使用 CUDA graph 做进一步加速，但会占用额外显存，并增加一些服务启动耗时；
DTYPE：默认为 float16，若您希望使用 bfloat16 精度推理，请手动修改为 bfloat16；
ENABLE_PREFIX_CACHING：--enable-prefix-caching，默认为 true。
Hunyuan A13B 系列模型
Hunyuan-A13B-Instruct
vllm-0.10.0-ti-20250827
MAX_MODEL_LEN：上下文长度，默认32768；
MAX_BATCH_SIZE：最大并发请求数，默认256；
MAX_NUM_BATCHED_TOKENS：最大并发token数，默认8000；
GPU_MEMORY_UTILIZATION：GPU 显存预留比例，默认0.9；
SERVED_MODEL_NAME：模型名称，默认为服务ID；
QUANTIZATION：量化方式，默认未配置。
-
DeepSeek 系列模型
DeepSeek-V3.1-Terminus
angel-vllm-angelacc-v19-ds31-dev20250821
MAX_MODEL_LEN：上下文长度，默认32768；
MAX_BATCH_SIZE：最大并发请求数，默认32；
MAX_NUM_BATCHED_TOKENS：最大并发token数，默认8000；
GPU_MEMORY_UTILIZATION：GPU 显存预留比例，tp 16 默认值为 0.85、tp8 默认值为 0.95；
SERVED_MODEL_NAME：模型名称，默认为服务ID；
DISABLE_LOG_REQUESTS：是否关闭日志详情，默认1，此时不打印每个请求的详细 prompt；若需要打印日志，可以改成0。
NUM_MTP_TOKENS：MTP投机采样预测的token数，默认1；改为0表示不开启MTP；改为2表示一次预测2个token，可能会有效果损失；
VLLM_MTP_REJECT_SAMPLE_METHOD：MTP投机采样策略，默认 "strict"，表示严格模式；若需要加速，可以改为 "prob"，性能会有提升，但输出可能不完全对齐；
GPU_MEMORY_UTILIZATION: 默认单机0.95，分布式部署0.85；
ENABLE_THINKING：是否开启思考模型，默认为 0 表示不开启；改为 1 表示开启。
﻿
DeepSeek-V3.1-Terminus
﻿
﻿
﻿
﻿
DeepSeek-R1-0528-AngelACC
angel-vllm-angelacc-v18-dev20250710
MAX_MODEL_LEN：上下文长度，默认65536；
MAX_BATCH_SIZE：最大并发请求数，默认128；
MAX_NUM_BATCHED_TOKENS：最大并发 token数，默认8000；
GPU_MEMORY_UTILIZATION：GPU 显存预留比例，默认0.85；
SERVED_MODEL_NAME：模型名称，默认为服务ID；
DISABLE_LOG_REQUESTS：是否关闭日志详情，默认1，此时不打印每个请求的详细 prompt；若需要打印日志，可以改成0；
SEPARATE_REASONING：是否思维链分开返回（reasoning_content字段），默认1；
VLLM_MTP_REJECT_SAMPLE_METHOD：MTP投机采样策略，默认 "strict"，表示严格模式；若需要加速，可以改为 "prob"，性能会有提升，但输出可能不完全对齐；
VLLM_CPU_GPU_OVERLAP：CPU和GPU Overlap调度加速，默认 1，表示开启；该功能开启后与约束解码不兼容（如JSON Output），有少量性能提升；
TOOL_CHAT_VERSION：可设置为v2表示更新工具调用对话模板为v2版本，默认版本的工具调用效果不好可以尝试开启，对一些场景的工具调用成功率会提升，默认不使用v2版本对话模板。
﻿
DeepSeek-R1-AngelACC
﻿
﻿
﻿
﻿
DeepSeek-V3-0324-AngelACC
﻿
﻿
﻿
﻿
DeepSeek-R1-0528-AngelACC-PD
angel-vllm-angelacc-pd-v19-dev20250812
﻿
VLLM_PREFILL_MAX_NUM_SEQS: Prefill 节点最大并发数，默认"8"；
VLLM_DECODE_MAX_NUM_SEQS: Decode 节点最大并发数，默认"32"；
VLLM_PREFILL_GPU_MEMORY_UTILIZATION: Prefill 节点显存预留比例，默认"0.85"；
VLLM_DECODE_GPU_MEMORY_UTILIZATION: Decode 节点显存预留比例，默认"0.85"；
VLLM_PREFILL_MAX_MODEL_LEN: Prefill 节点模型上下文长度，默认"32768"；
VLLM_DECODE_MAX_MODEL_LEN: Decode 节点模型上下文长度，默认"32768"；
VLLM_PREFILL_MAX_PROMPT_LEN: Prefill 节点模型输入最大长度，默认"16384"；
VLLM_DECODE_MAX_PROMPT_LEN: Decode 节点模型输入最大长度，默认"16384"；
VLLM_PREFILL_MAX_NUM_BATCHED_TOKENS: Prefill 节点最大一次性处理的 Token 数，默认"32768"；
VLLM_DECODE_MAX_NUM_BATCHED_TOKENS: Decode 节点最大一次性处理的 Token 数，默认"64"；
VLLM_NUM_PREFILLS: Prefill 节点数，默认总结点数 / 2 向上取整；
VLLM_NUM_DECODES: Decode 节点数，默认总节点数 / 2 向下取整；
TOOL_CHAT_VERSION：可设置为v2表示更新工具调用对话模板为v2版本，默认版本的工具调用效果不好可以尝试开启，对一些场景的工具调用成功率会提升，默认不使用v2版本对话模板；
EXTRA_PARAMS：服务启动的额外参数，会原样传递给 vllm 启动命令；
SEPARATE_REASONING：是否思维链分开返回（reasoning_content字段），默认1；
VLLM_CPU_GPU_OVERLAP：CPU 和GPU Overlap 调度加速，默认0，表示关闭；该功能开启后与约束解码不兼容（如JSON Output），有少量性能提升。
﻿
DeepSeek-R1-AngelACC-PD
﻿
﻿
﻿
﻿
DeepSeek-V3-0324-AngelACC-PD
﻿
﻿
﻿
﻿
DeepSeek-V3-AngelACC
sglang-v0.4.4-mtp-dev20250327
MAX_MODEL_LEN：上下文长度，默认 65536；
MAX_RUNNING_REQUESTS：并发上限，默认 64；
MAX_CUDA_GRAPH_BS：cuda graph 上限，默认 64；
CHUNKED_PREFILL_SIZE：--chunked-prefill-size，默认 24000；
MEM_FRACTION_STATIC：--mem-fraction-static，默认 0.7；
SEPARATE_REASONING：是否思维链通过 reasoning_content 返回，默认 0；
ENABLE_MTP：是否开启 MTP 并行解码加速，默认 1；
AUTO_TEMPLATE：是否自动设置对话模板，tool parser，reasoning parser，默认 1。
ENABLE_DP：是否开启 DP 加速，默认 0；
DP_SIZE：开启 DP 加速时的 --dp-size 参数，默认为 GPU 卡数。
﻿
DeepSeek-R1-0528
sglang-v0.4.6.post4-dev20250716
MAX_MODEL_LEN：上下文长度，默认自动（ds 满血默认64k，llama4默认128k）；
MAX_RUNNING_REQUESTS：并发上限，默认自动（ds满血有调整）；
MAX_CUDA_GRAPH_BS：cuda graph 上限，默认自动（ds 满血有调整）；
CHUNKED_PREFILL_SIZE：--chunked-prefill-size，默认自动；
MEM_FRACTION_STATIC：--mem-fraction-static，默认自动（ds 满血有调整）；
ENABLE_MTP：是否开启 MTP 并行解码加速，默认未设置（ds 满血16卡默认开启）；
SEPARATE_REASONING：是否思维链通过 reasoning_content 返回，默认 0；
AUTO_TEMPLATE：是否自动设置对话模板和工具调用及思维链解析模板（deepseek、qwen3、qwq、llama4），默认 1。
ENABLE_EP_MOE：是否开启 ep moe 加速，默认未设置（ds 满血默认开启）；
QUANTIZATION：量化方式，默认未配置；
DP_SIZE：开启 DP 加速，并设置 --dp-size 参数，默认未配置；
ENABLE_MULTIMODAL：是否开启多模态支持，默认未设置（llama4默认开启）。
﻿
DeepSeek-V3-0324
﻿
﻿
﻿
﻿
DeepSeek-V3
﻿
﻿
﻿
﻿
DeepSeek-R1
﻿
﻿
﻿
﻿
DeepSeek-Prover-V2-671B
﻿
﻿
﻿
﻿
DeepSeek-Prover-V2-7B
﻿
﻿
﻿
﻿
DeepSeek-R1-Distill-Qwen-1.5B
﻿
﻿
﻿
﻿
DeepSeek-R1-Distill-Qwen-7B
﻿
﻿
﻿
﻿
DeepSeek-R1-Distill-Llama-8B
﻿
﻿
﻿
﻿
DeepSeek-R1-Distill-Qwen-14B
﻿
﻿
﻿
﻿
DeepSeek-R1-Distill-Qwen-32B
﻿
﻿
﻿
﻿
DeepSeek-R1-Distill-Llama-70B
﻿
﻿
﻿
﻿
DeepSeek-R1-Distill-Qwen-32B-AngelACC
hunyuan-H-5.1.1-v1-trtllm-ti-20250814
-
SERVER_TIMEOUT：服务启动超时时间，默认 1800秒；
MEM_FRACTION：默认 0.5；
REASONING_PARSE：reasoning parser，可选值：deepseek_r1；
TOOL_CALL_PARSER：tool parser，可选值：deepseek_v3；
MAX_BATCH_SIZE：最大 batch size，默认值 128；
MAX_INPUT_TOKEN_LEN：最大输入长度，默认值 4000；
MAX_SEQ_LEN：最大上下文长度（包括输出），默认值 4500。
GPT-OSS 系列模型
GPT-OSS-20B
vllm-0.10.1-gptoss-ti-20250811
MAX_MODEL_LEN：上下文长度，默认65536；
MAX_BATCH_SIZE：最大并发请求数，默认128；
MAX_NUM_BATCHED_TOKENS：最大并发 token数，默认8000；
GPU_MEMORY_UTILIZATION：GPU 显存预留比例，默认0.85；
SERVED_MODEL_NAME：模型名称，默认为服务ID；
QUANTIZATION：量化方式，默认未配置。
-
﻿
GPT-OSS-120B
﻿
﻿
﻿
Cosmos-Reason1 系列模型
Cosmos-Reason1-7B
vllm-0.9.1-ti-20250703
MAX_MODEL_LEN：上下文长度，默认65536；
MAX_BATCH_SIZE：最大并发请求数，默认128；
MAX_NUM_BATCHED_TOKENS：最大并发 token数，默认8000；
GPU_MEMORY_UTILIZATION：GPU 显存预留比例，默认0.85；
SERVED_MODEL_NAME：模型名称，默认为服务ID；
QUANTIZATION：量化方式，默认未配置。
-
Kimi K2 系列模型
Kimi-K2-Instruct
sglang-v0.4.9.post2-dev20250715
MAX_MODEL_LEN：上下文长度，默认自动；
MAX_RUNNING_REQUESTS：并发上限，默认自动；
MAX_CUDA_GRAPH_BS：cuda graph 上限；
CHUNKED_PREFILL_SIZE：--chunked-prefill-size，默认自动；
MEM_FRACTION_STATIC：--mem-fraction-static，默认自动（ds 满血有调整）；
ENABLE_MTP：是否开启 MTP 并行解码加速，默认未设置（ds 满血16卡默认开启）；
SEPARATE_REASONING：是否思维链通过 reasoning_content 返回，默认 0；
AUTO_TEMPLATE：是否自动设置对话模板和工具调用及思维链解析模板，默认 1。
﻿
MAX_CUDA_GRAPH_BS：默认128
ENABLE_EP_MOE：是否开启 ep moe 加速，默认未设置（ds 满血默认开启）；
QUANTIZATION：量化方式，默认未配置；
DP_SIZE：开启 DP 加速，并设置 --dp-size 参数，默认未配置；
ENABLE_MULTIMODAL：是否开启多模态支持，默认未设置。
﻿
Kimi-K2-Instruct-0905
﻿
﻿
﻿
Llama4 系列模型
llama4_Maverick_17B_128E
sglang-v0.4.6.post4-dev20250716
MAX_MODEL_LEN：上下文长度，默认自动（ds 满血默认64k，llama4 默认128k）；
MAX_RUNNING_REQUESTS：并发上限，默认自动（ds 满血有调整）；
MAX_CUDA_GRAPH_BS：cuda graph 上限，默认自动（ds 满血有调整）；
CHUNKED_PREFILL_SIZE：--chunked-prefill-size，默认自动；
MEM_FRACTION_STATIC：--mem-fraction-static，默认自动（ds 满血有调整）；
ENABLE_MTP：是否开启 MTP 并行解码加速，默认未设置（ds 满血16卡默认开启）；
SEPARATE_REASONING：是否思维链通过 reasoning_content 返回，默认 0；
AUTO_TEMPLATE：是否自动设置对话模板和工具调用及思维链解析模板（deepseek、qwen3、qwq、llama4），默认 1。
ENABLE_EP_MOE：是否开启 ep moe 加速，默认未设置（ds 满血默认开启）；
QUANTIZATION：量化方式，默认未配置；
DP_SIZE：开启 DP 加速，并设置 --dp-size 参数，默认未配置；
ENABLE_MULTIMODAL：是否开启多模态支持，默认未设置（llama4 默认开启）。
﻿
llama4_Maverick_17B_128E_Instruct
﻿
﻿
﻿
﻿
llama4_Maverick_17B_128E_Instruct_FP8
﻿
﻿
﻿
﻿
llama4_Scout_17B_16E
﻿
﻿
﻿
﻿
llama4_Scout_17B_16E_Instruct
﻿
﻿
﻿
Llama3.2 系列模型
llama3.2_11b_vision_chat
angel-vllm-0.6.2-ti-2.1.6-dev20250627
QUANTIZATION：量化方式，默认不指定。
MAX_MODEL_LEN：上下文长度，默认自动
GPU_MEMORY_UTILIZATION：GPU 显存预留比例，默认0.9。
USE_LOOKAHEAD：默认为"0"，设置为"1"表示开启 Lookahead 并行解码，很多场景下可以显著加快解码速度；
NUM_SPECULATIVE_TOKENS：默认为"6"，表示 Lookahead 并行解码一次解码长度，若实际需要支持的并发数较大，可以调小此值，并发数小，可以调大此值；
ENFORCE_EAGER：是否强制开启 PyTorch 的 eager 模式，默认 false ，此时会额外使用 CUDA graph 做进一步加速，但会占用额外显存，并增加一些服务启动耗时；
DTYPE：默认为 float16，若您希望使用 bfloat16 精度推理，请手动修改为 bfloat16；
ENABLE_PREFIX_CACHING：--enable-prefix-caching，默认为 true。
﻿
llama3.2_1b
﻿
﻿
﻿
﻿
llama3.2_1b_chat
﻿
﻿
﻿
﻿
llama3.2_3b
﻿
﻿
﻿
﻿
llama3.2_3b_chat
﻿
﻿
﻿
﻿
llama3.2_90b_vision_chat
﻿
﻿
﻿
Llama3.1 系列模型
llama3.1_70b
﻿
﻿
﻿
﻿
llama3.1_70b_chat
﻿
﻿
﻿
﻿
llama3.1_8b
﻿
﻿
﻿
﻿
llama3.1_8b_chat
﻿
﻿
﻿
Llama3 系列模型
llama_3_70b
﻿
﻿
﻿
﻿
llama_3_70b_chat
﻿
﻿
﻿
﻿
llama_3_8b
﻿
﻿
﻿
﻿
llama_3_8b_chat
﻿
﻿
﻿
Llama2 系列模型
llama_2_13b
﻿
﻿
﻿
﻿
llama_2_13b_chat
﻿
﻿
﻿
﻿
llama_2_70b
﻿
﻿
﻿
﻿
llama_2_70b_chat
﻿
﻿
﻿
﻿
llama_2_7b
﻿
﻿
﻿
﻿
llama_2_7b_chat
﻿
﻿
﻿
Qwen 系列模型
qwen_14b
sglang-v0.4.6.post4-dev20250716 
MAX_MODEL_LEN：上下文长度，默认自动（ds 满血默认64k，llama4 默认128k）；
MAX_RUNNING_REQUESTS：并发上限，默认自动（ds 满血有调整）；
MAX_CUDA_GRAPH_BS：cuda graph 上限，默认自动（ds 满血有调整）；
CHUNKED_PREFILL_SIZE：--chunked-prefill-size，默认自动；
MEM_FRACTION_STATIC：--mem-fraction-static，默认自动（ds 满血有调整）；
ENABLE_MTP：是否开启 MTP 并行解码加速，默认未设置（ds 满血16卡默认开启）；
SEPARATE_REASONING：是否思维链通过 
reasoning_content ：返回，默认 0；
AUTO_TEMPLATE：是否自动设置对话模板和工具调用及思维链解析模板（deepseek、qwen3、qwq、llama4），默认 1。
ENABLE_EP_MOE：是否开启 ep moe 加速，默认未设置（ds 满血默认开启）；
QUANTIZATION：量化方式，默认未配置；
DP_SIZE：开启 DP 加速，并设置 --dp-size 参数，默认未配置；
ENABLE_MULTIMODAL：是否开启多模态支持，默认未设置（llama4 默认开启）。
﻿
qwen_14b_chat
﻿
﻿
﻿
Qwen3 系列模型
Qwen3-0.6B
﻿
﻿
﻿
﻿
Qwen3-1.7B
﻿
﻿
﻿
﻿
Qwen3-4B
﻿
﻿
﻿
﻿
Qwen3-8B
﻿
﻿
﻿
﻿
Qwen3-14B
﻿
﻿
﻿
﻿
Qwen3-32B
﻿
﻿
﻿
﻿
Qwen3-0.6B-FP8
﻿
﻿
﻿
﻿
Qwen3-1.7B-FP8
﻿
﻿
﻿
﻿
Qwen3-4B-FP8
﻿
﻿
﻿
﻿
Qwen3-8B-FP8
﻿
﻿
﻿
﻿
Qwen3-14B-FP8
﻿
﻿
﻿
﻿
Qwen3-32B-FP8
﻿
﻿
﻿
﻿
Qwen3-30B-A3B
﻿
﻿
﻿
﻿
Qwen3-30B-A3B-FP8
﻿
﻿
﻿
﻿
Qwen3-235B-A22B
﻿
﻿
﻿
﻿
Qwen3-235B-A22B-FP8
﻿
﻿
﻿
﻿
Qwen3-30B-A3B-Instruct-2507
vllm-0.9.1-ti-20250725
MAX_MODEL_LEN：上下文长度；
MAX_BATCH_SIZE：最大并发请求数，默认128；
MAX_NUM_BATCHED_TOKENS：最大并发token数，默认8000；
GPU_MEMORY_UTILIZATION：GPU 显存预留比例，默认0.85；
SERVED_MODEL_NAME：模型名称，默认为服务ID；
QUANTIZATION：量化方式，默认未配置。
EXTRA_PARAMS：直接传递给 vllm 作为启动命令的额外参数，参数含义可参考 vllm 文档、有想开启的参数也可以通过此环境变量传入。默认为 "--enable-auto-tool-choice --tool-call-parser hermes"，表示开启工具调用解析、默认的工具 parser 为 hermes。
﻿
Qwen3-235B-A22B-Instruct-2507
﻿
﻿
﻿
﻿
Qwen3-235B-A22B-Instruct-2507-FP8
﻿
﻿
EXTRA_PARAMS：直接传递给 vllm 作为启动命令的额外参数，参数含义可参考 vllm 文档、有想开启的参数也可以通过此环境变量传入。默认为 "--enable-expert-parallel --enable-auto-tool-choice --tool-call-parser hermes"，表示开启专家并行、开启工具调用解析、默认的工具 parser 为 hermes。
﻿
Qwen3-235B-A22B-Thinking-2507
﻿
﻿
EXTRA_PARAMS：直接传递给 vllm 作为启动命令的额外参数，参数含义可参考 vllm 文档、有想开启的参数也可以通过此环境变量传入。默认为 "--enable-reasoning --reasoning-parser deepseek_r1 --enable-auto-tool-choice --tool-call-parser hermes"，表示开启思维链解析、思维链 parser 为 deepseek_r1、开启工具调用解析、默认的工具 parser 为 hermes。
﻿
Qwen3-235B-A22B-Thinking-2507-FP8
﻿
﻿
EXTRA_PARAMS：直接传递给 vllm 作为启动命令的额外参数，参数含义可参考 vllm 文档、有想开启的参数也可以通过此环境变量传入。默认为 "--enable-expert-parallel --enable-reasoning --reasoning-parser deepseek_r1 --enable-auto-tool-choice --tool-call-parser hermes"，表示开启专家并行、开启思维链解析、思维链 parser 为 deepseek_r1、开启工具调用解析、默认的工具 parser 为 hermes。
Qwen3 Coder 系列模型
Qwen3-Coder-480B-A35B-Instruct
﻿
﻿
EXTRA_PARAMS：直接传递给 vllm 作为启动命令的额外参数，参数含义可参考 vllm 文档、有想开启的参数也可以通过此环境变量传入。默认为 "--enable-expert-parallel --enable-auto-tool-choice --tool-call-parser qwen3_xml --tool-parser-plugin examples/qwen3coder_tool_parser.py"，表示开启专家并行、开启工具调用解析、默认的工具 parser 为 qwen3_xml、同时指定了自己写的工具调用解析插件。
﻿
Qwen3-Coder-480B-A35B-Instruct-FP8
﻿
﻿
﻿
Qwen2.5-VL 系列模型
Qwen2.5-VL-32B-Instruct
vllm-0.10.0-ti-20250821
﻿
MAX_MODEL_LEN
默认值为64000；
LIMIT_MM_PER_PROMPT：
限制提示词内容，默认为{"images":2}（每个提问最多携带2张图片）；
MM_PROCESSOR_KWARGS：
修改模型特定的参数，默认为{"max_pixels":3686400}。
﻿
Qwen2.5-VL-72B-Instruct
﻿
﻿
﻿
﻿
Qwen2.5-VL-72B-Instruct-AWQ
﻿
﻿
﻿
Qwen3 Embedding系列模型
Qwen3-Embedding-8B
vllm-0.9.1-ti-proxy-20250827
﻿
HF_OVERRIDES：指定覆盖模型config.json，本模型默认为	
{"is_matryoshka":true}支持 Matryoshka embedding；
PROXY：是否开启代理，默认为 False。
QwQ 系列模型
QwQ-32B
sglang-v0.4.6.post4-dev20250716
MAX_MODEL_LEN：上下文长度，默认自动；
MAX_RUNNING_REQUESTS：并发上限，默认自动；
MAX_CUDA_GRAPH_BS：cuda graph 上限；
CHUNKED_PREFILL_SIZE：--chunked-prefill-size，默认自动；
MEM_FRACTION_STATIC：--mem-fraction-static，默认自动（ds满血有调整）；
ENABLE_MTP：是否开启 MTP 并行解码加速，默认未设置（ds 满血16卡默认开启）；
SEPARATE_REASONING：是否思维链通过 reasoning_content 返回，默认 0；
AUTO_TEMPLATE：是否自动设置对话模板和工具调用及思维链解析模板，默认 1。
MAX_CUDA_GRAPH_BS：默认自动
ENABLE_EP_MOE：是否开启 ep moe 加速，默认未设置（ds 满血默认开启）；
QUANTIZATION：量化方式，默认未配置；
DP_SIZE：开启 DP 加速，并设置 --dp-size 参数，默认未配置；
ENABLE_MULTIMODAL：是否开启多模态支持，默认未设置。
Gemma 3系列模型
gemma-3-27b-it
vllm-0.10.0-ti-20250821
-
MAX_MODEL_LEN：
默认值为64000；
LIMIT_MM_PER_PROMPT：
限制提示词内容，默认为{"images":2}（每个提问最多携带2张图片）；
MM_PROCESSOR_KWARGS：
修改模型特定的参数，默认为{"max_pixels":3686400}。
﻿
gemma-3-12b-it
﻿
-
﻿
GLM-4.5V系列模型
GLM-4.5V
vllm-0.10.2-ti-dev20250918
-
EXTRA_PARAMS: --enable-auto-tool-choice --tool-call-parser glm45 --reasoning-parser glm45 --media-io-kwargs {"video":{"num_frames":-1}}
﻿

模型系列	模型清单	推理镜像	推理通用环境变量	推理非通用环境变量
Hunyuan 系列模型	Hunyuan-Large-Instruct	angel-vllm-0.6.2-ti-2.1.6-dev20250627	QUANTIZATION：量化方式，默认不指定； MAX_MODEL_LEN：上下文长度，默认自动； GPU_MEMORY_UTILIZATION：GPU显存预留比例，默认0.9。	USE_LOOKAHEAD：默认为"0"，设置为"1"表示开启 Lookahead 并行解码，很多场景下可以显著加快解码速度； NUM_SPECULATIVE_TOKENS：默认为"6"，表示 Lookahead 并行解码一次解码长度，若实际需要支持的并发数较大，可以调小此值，并发数小，可以调大此值； ENFORCE_EAGER：是否强制开启 PyTorch 的 eager 模式，默认 false ，此时会额外使用 CUDA graph 做进一步加速，但会占用额外显存，并增加一些服务启动耗时； DTYPE：默认为 float16，若您希望使用 bfloat16 精度推理，请手动修改为 bfloat16； ENABLE_PREFIX_CACHING：--enable-prefix-caching，默认为 true。
Hunyuan A13B 系列模型	Hunyuan-A13B-Instruct	vllm-0.10.0-ti-20250827	MAX_MODEL_LEN：上下文长度，默认32768； MAX_BATCH_SIZE：最大并发请求数，默认256； MAX_NUM_BATCHED_TOKENS：最大并发token数，默认8000； GPU_MEMORY_UTILIZATION：GPU 显存预留比例，默认0.9； SERVED_MODEL_NAME：模型名称，默认为服务ID； QUANTIZATION：量化方式，默认未配置。	-
DeepSeek 系列模型	DeepSeek-V3.1-Terminus	angel-vllm-angelacc-v19-ds31-dev20250821	MAX_MODEL_LEN：上下文长度，默认32768； MAX_BATCH_SIZE：最大并发请求数，默认32； MAX_NUM_BATCHED_TOKENS：最大并发token数，默认8000； GPU_MEMORY_UTILIZATION：GPU 显存预留比例，tp 16 默认值为 0.85、tp8 默认值为 0.95； SERVED_MODEL_NAME：模型名称，默认为服务ID； DISABLE_LOG_REQUESTS：是否关闭日志详情，默认1，此时不打印每个请求的详细 prompt；若需要打印日志，可以改成0。	NUM_MTP_TOKENS：MTP投机采样预测的token数，默认1；改为0表示不开启MTP；改为2表示一次预测2个token，可能会有效果损失； VLLM_MTP_REJECT_SAMPLE_METHOD：MTP投机采样策略，默认 "strict"，表示严格模式；若需要加速，可以改为 "prob"，性能会有提升，但输出可能不完全对齐； GPU_MEMORY_UTILIZATION: 默认单机0.95，分布式部署0.85； ENABLE_THINKING：是否开启思考模型，默认为 0 表示不开启；改为 1 表示开启。
		angel-vllm-angelacc-v19-ds31-dev20250821			DeepSeek-V3.1-Terminus
		DeepSeek-R1-0528-AngelACC	angel-vllm-angelacc-v18-dev20250710	MAX_MODEL_LEN：上下文长度，默认65536； MAX_BATCH_SIZE：最大并发请求数，默认128； MAX_NUM_BATCHED_TOKENS：最大并发 token数，默认8000； GPU_MEMORY_UTILIZATION：GPU 显存预留比例，默认0.85； SERVED_MODEL_NAME：模型名称，默认为服务ID； DISABLE_LOG_REQUESTS：是否关闭日志详情，默认1，此时不打印每个请求的详细 prompt；若需要打印日志，可以改成0；	SEPARATE_REASONING：是否思维链分开返回（reasoning_content字段），默认1； VLLM_MTP_REJECT_SAMPLE_METHOD：MTP投机采样策略，默认 "strict"，表示严格模式；若需要加速，可以改为 "prob"，性能会有提升，但输出可能不完全对齐； VLLM_CPU_GPU_OVERLAP：CPU和GPU Overlap调度加速，默认 1，表示开启；该功能开启后与约束解码不兼容（如JSON Output），有少量性能提升； TOOL_CHAT_VERSION：可设置为v2表示更新工具调用对话模板为v2版本，默认版本的工具调用效果不好可以尝试开启，对一些场景的工具调用成功率会提升，默认不使用v2版本对话模板。
		DeepSeek-R1-AngelACC
		DeepSeek-V3-0324-AngelACC
		DeepSeek-R1-0528-AngelACC-PD	angel-vllm-angelacc-pd-v19-dev20250812			VLLM_PREFILL_MAX_NUM_SEQS: Prefill 节点最大并发数，默认"8"； VLLM_DECODE_MAX_NUM_SEQS: Decode 节点最大并发数，默认"32"； VLLM_PREFILL_GPU_MEMORY_UTILIZATION: Prefill 节点显存预留比例，默认"0.85"； VLLM_DECODE_GPU_MEMORY_UTILIZATION: Decode 节点显存预留比例，默认"0.85"； VLLM_PREFILL_MAX_MODEL_LEN: Prefill 节点模型上下文长度，默认"32768"； VLLM_DECODE_MAX_MODEL_LEN: Decode 节点模型上下文长度，默认"32768"； VLLM_PREFILL_MAX_PROMPT_LEN: Prefill 节点模型输入最大长度，默认"16384"； VLLM_DECODE_MAX_PROMPT_LEN: Decode 节点模型输入最大长度，默认"16384"； VLLM_PREFILL_MAX_NUM_BATCHED_TOKENS: Prefill 节点最大一次性处理的 Token 数，默认"32768"； VLLM_DECODE_MAX_NUM_BATCHED_TOKENS: Decode 节点最大一次性处理的 Token 数，默认"64"； VLLM_NUM_PREFILLS: Prefill 节点数，默认总结点数 / 2 向上取整； VLLM_NUM_DECODES: Decode 节点数，默认总节点数 / 2 向下取整； TOOL_CHAT_VERSION：可设置为v2表示更新工具调用对话模板为v2版本，默认版本的工具调用效果不好可以尝试开启，对一些场景的工具调用成功率会提升，默认不使用v2版本对话模板； EXTRA_PARAMS：服务启动的额外参数，会原样传递给 vllm 启动命令； SEPARATE_REASONING：是否思维链分开返回（reasoning_content字段），默认1； VLLM_CPU_GPU_OVERLAP：CPU 和GPU Overlap 调度加速，默认0，表示关闭；该功能开启后与约束解码不兼容（如JSON Output），有少量性能提升。
		DeepSeek-R1-AngelACC-PD
		DeepSeek-V3-0324-AngelACC-PD
		DeepSeek-V3-AngelACC	sglang-v0.4.4-mtp-dev20250327	MAX_MODEL_LEN：上下文长度，默认 65536； MAX_RUNNING_REQUESTS：并发上限，默认 64； MAX_CUDA_GRAPH_BS：cuda graph 上限，默认 64； CHUNKED_PREFILL_SIZE：--chunked-prefill-size，默认 24000； MEM_FRACTION_STATIC：--mem-fraction-static，默认 0.7； SEPARATE_REASONING：是否思维链通过 reasoning_content 返回，默认 0； ENABLE_MTP：是否开启 MTP 并行解码加速，默认 1； AUTO_TEMPLATE：是否自动设置对话模板，tool parser，reasoning parser，默认 1。	ENABLE_DP：是否开启 DP 加速，默认 0； DP_SIZE：开启 DP 加速时的 --dp-size 参数，默认为 GPU 卡数。
		DeepSeek-R1-0528	sglang-v0.4.6.post4-dev20250716	MAX_MODEL_LEN：上下文长度，默认自动（ds 满血默认64k，llama4默认128k）； MAX_RUNNING_REQUESTS：并发上限，默认自动（ds满血有调整）； MAX_CUDA_GRAPH_BS：cuda graph 上限，默认自动（ds 满血有调整）； CHUNKED_PREFILL_SIZE：--chunked-prefill-size，默认自动； MEM_FRACTION_STATIC：--mem-fraction-static，默认自动（ds 满血有调整）； ENABLE_MTP：是否开启 MTP 并行解码加速，默认未设置（ds 满血16卡默认开启）； SEPARATE_REASONING：是否思维链通过 reasoning_content 返回，默认 0； AUTO_TEMPLATE：是否自动设置对话模板和工具调用及思维链解析模板（deepseek、qwen3、qwq、llama4），默认 1。	ENABLE_EP_MOE：是否开启 ep moe 加速，默认未设置（ds 满血默认开启）； QUANTIZATION：量化方式，默认未配置； DP_SIZE：开启 DP 加速，并设置 --dp-size 参数，默认未配置； ENABLE_MULTIMODAL：是否开启多模态支持，默认未设置（llama4默认开启）。
		DeepSeek-V3-0324
		DeepSeek-V3
		DeepSeek-R1
		DeepSeek-Prover-V2-671B
		DeepSeek-Prover-V2-7B
		DeepSeek-R1-Distill-Qwen-1.5B
		DeepSeek-R1-Distill-Qwen-7B
		DeepSeek-R1-Distill-Llama-8B
		DeepSeek-R1-Distill-Qwen-14B
		DeepSeek-R1-Distill-Qwen-32B
		DeepSeek-R1-Distill-Llama-70B
		DeepSeek-R1-Distill-Qwen-32B-AngelACC	hunyuan-H-5.1.1-v1-trtllm-ti-20250814	-	SERVER_TIMEOUT：服务启动超时时间，默认 1800秒； MEM_FRACTION：默认 0.5； REASONING_PARSE：reasoning parser，可选值：deepseek_r1； TOOL_CALL_PARSER：tool parser，可选值：deepseek_v3； MAX_BATCH_SIZE：最大 batch size，默认值 128； MAX_INPUT_TOKEN_LEN：最大输入长度，默认值 4000； MAX_SEQ_LEN：最大上下文长度（包括输出），默认值 4500。
GPT-OSS 系列模型	GPT-OSS-20B	vllm-0.10.1-gptoss-ti-20250811	MAX_MODEL_LEN：上下文长度，默认65536； MAX_BATCH_SIZE：最大并发请求数，默认128； MAX_NUM_BATCHED_TOKENS：最大并发 token数，默认8000； GPU_MEMORY_UTILIZATION：GPU 显存预留比例，默认0.85； SERVED_MODEL_NAME：模型名称，默认为服务ID； QUANTIZATION：量化方式，默认未配置。	-
GPT-OSS 系列模型		vllm-0.10.1-gptoss-ti-20250811		-	GPT-OSS-120B
Cosmos-Reason1 系列模型	Cosmos-Reason1-7B	vllm-0.9.1-ti-20250703	MAX_MODEL_LEN：上下文长度，默认65536； MAX_BATCH_SIZE：最大并发请求数，默认128； MAX_NUM_BATCHED_TOKENS：最大并发 token数，默认8000； GPU_MEMORY_UTILIZATION：GPU 显存预留比例，默认0.85； SERVED_MODEL_NAME：模型名称，默认为服务ID； QUANTIZATION：量化方式，默认未配置。	-
Kimi K2 系列模型	Kimi-K2-Instruct	sglang-v0.4.9.post2-dev20250715	MAX_MODEL_LEN：上下文长度，默认自动； MAX_RUNNING_REQUESTS：并发上限，默认自动； MAX_CUDA_GRAPH_BS：cuda graph 上限； CHUNKED_PREFILL_SIZE：--chunked-prefill-size，默认自动； MEM_FRACTION_STATIC：--mem-fraction-static，默认自动（ds 满血有调整）； ENABLE_MTP：是否开启 MTP 并行解码加速，默认未设置（ds 满血16卡默认开启）； SEPARATE_REASONING：是否思维链通过 reasoning_content 返回，默认 0； AUTO_TEMPLATE：是否自动设置对话模板和工具调用及思维链解析模板，默认 1。	MAX_CUDA_GRAPH_BS：默认128 ENABLE_EP_MOE：是否开启 ep moe 加速，默认未设置（ds 满血默认开启）； QUANTIZATION：量化方式，默认未配置； DP_SIZE：开启 DP 加速，并设置 --dp-size 参数，默认未配置； ENABLE_MULTIMODAL：是否开启多模态支持，默认未设置。
Kimi K2 系列模型		sglang-v0.4.9.post2-dev20250715			Kimi-K2-Instruct-0905
Llama4 系列模型	llama4_Maverick_17B_128E	sglang-v0.4.6.post4-dev20250716	MAX_MODEL_LEN：上下文长度，默认自动（ds 满血默认64k，llama4 默认128k）； MAX_RUNNING_REQUESTS：并发上限，默认自动（ds 满血有调整）； MAX_CUDA_GRAPH_BS：cuda graph 上限，默认自动（ds 满血有调整）； CHUNKED_PREFILL_SIZE：--chunked-prefill-size，默认自动； MEM_FRACTION_STATIC：--mem-fraction-static，默认自动（ds 满血有调整）； ENABLE_MTP：是否开启 MTP 并行解码加速，默认未设置（ds 满血16卡默认开启）； SEPARATE_REASONING：是否思维链通过 reasoning_content 返回，默认 0； AUTO_TEMPLATE：是否自动设置对话模板和工具调用及思维链解析模板（deepseek、qwen3、qwq、llama4），默认 1。	ENABLE_EP_MOE：是否开启 ep moe 加速，默认未设置（ds 满血默认开启）； QUANTIZATION：量化方式，默认未配置； DP_SIZE：开启 DP 加速，并设置 --dp-size 参数，默认未配置； ENABLE_MULTIMODAL：是否开启多模态支持，默认未设置（llama4 默认开启）。
					llama4_Maverick_17B_128E_Instruct
					llama4_Maverick_17B_128E_Instruct_FP8
					llama4_Scout_17B_16E
					llama4_Scout_17B_16E_Instruct
Llama3.2 系列模型	llama3.2_11b_vision_chat	angel-vllm-0.6.2-ti-2.1.6-dev20250627	QUANTIZATION：量化方式，默认不指定。 MAX_MODEL_LEN：上下文长度，默认自动 GPU_MEMORY_UTILIZATION：GPU 显存预留比例，默认0.9。	USE_LOOKAHEAD：默认为"0"，设置为"1"表示开启 Lookahead 并行解码，很多场景下可以显著加快解码速度； NUM_SPECULATIVE_TOKENS：默认为"6"，表示 Lookahead 并行解码一次解码长度，若实际需要支持的并发数较大，可以调小此值，并发数小，可以调大此值； ENFORCE_EAGER：是否强制开启 PyTorch 的 eager 模式，默认 false ，此时会额外使用 CUDA graph 做进一步加速，但会占用额外显存，并增加一些服务启动耗时； DTYPE：默认为 float16，若您希望使用 bfloat16 精度推理，请手动修改为 bfloat16； ENABLE_PREFIX_CACHING：--enable-prefix-caching，默认为 true。
					llama3.2_1b
					llama3.2_1b_chat
					llama3.2_3b
					llama3.2_3b_chat
					llama3.2_90b_vision_chat
Llama3.1 系列模型	llama3.1_70b
					llama3.1_70b_chat
					llama3.1_8b
					llama3.1_8b_chat
Llama3 系列模型	llama_3_70b
					llama_3_70b_chat
					llama_3_8b
					llama_3_8b_chat
Llama2 系列模型	llama_2_13b
					llama_2_13b_chat
					llama_2_70b
					llama_2_70b_chat
					llama_2_7b
					llama_2_7b_chat
Qwen 系列模型	qwen_14b	sglang-v0.4.6.post4-dev20250716	MAX_MODEL_LEN：上下文长度，默认自动（ds 满血默认64k，llama4 默认128k）； MAX_RUNNING_REQUESTS：并发上限，默认自动（ds 满血有调整）； MAX_CUDA_GRAPH_BS：cuda graph 上限，默认自动（ds 满血有调整）； CHUNKED_PREFILL_SIZE：--chunked-prefill-size，默认自动； MEM_FRACTION_STATIC：--mem-fraction-static，默认自动（ds 满血有调整）； ENABLE_MTP：是否开启 MTP 并行解码加速，默认未设置（ds 满血16卡默认开启）； SEPARATE_REASONING：是否思维链通过 reasoning_content ：返回，默认 0； AUTO_TEMPLATE：是否自动设置对话模板和工具调用及思维链解析模板（deepseek、qwen3、qwq、llama4），默认 1。	ENABLE_EP_MOE：是否开启 ep moe 加速，默认未设置（ds 满血默认开启）； QUANTIZATION：量化方式，默认未配置； DP_SIZE：开启 DP 加速，并设置 --dp-size 参数，默认未配置； ENABLE_MULTIMODAL：是否开启多模态支持，默认未设置（llama4 默认开启）。
Qwen 系列模型					qwen_14b_chat
Qwen3 系列模型	Qwen3-0.6B
					Qwen3-1.7B
					Qwen3-4B
					Qwen3-8B
					Qwen3-14B
					Qwen3-32B
					Qwen3-0.6B-FP8
					Qwen3-1.7B-FP8
					Qwen3-4B-FP8
					Qwen3-8B-FP8
					Qwen3-14B-FP8
					Qwen3-32B-FP8
					Qwen3-30B-A3B
					Qwen3-30B-A3B-FP8
					Qwen3-235B-A22B
					Qwen3-235B-A22B-FP8
		Qwen3-30B-A3B-Instruct-2507	vllm-0.9.1-ti-20250725	MAX_MODEL_LEN：上下文长度； MAX_BATCH_SIZE：最大并发请求数，默认128； MAX_NUM_BATCHED_TOKENS：最大并发token数，默认8000； GPU_MEMORY_UTILIZATION：GPU 显存预留比例，默认0.85； SERVED_MODEL_NAME：模型名称，默认为服务ID； QUANTIZATION：量化方式，默认未配置。	EXTRA_PARAMS：直接传递给 vllm 作为启动命令的额外参数，参数含义可参考 vllm 文档、有想开启的参数也可以通过此环境变量传入。默认为 "--enable-auto-tool-choice --tool-call-parser hermes"，表示开启工具调用解析、默认的工具 parser 为 hermes。
		Qwen3-235B-A22B-Instruct-2507
		Qwen3-235B-A22B-Instruct-2507-FP8					EXTRA_PARAMS：直接传递给 vllm 作为启动命令的额外参数，参数含义可参考 vllm 文档、有想开启的参数也可以通过此环境变量传入。默认为 "--enable-expert-parallel --enable-auto-tool-choice --tool-call-parser hermes"，表示开启专家并行、开启工具调用解析、默认的工具 parser 为 hermes。
		Qwen3-235B-A22B-Thinking-2507					EXTRA_PARAMS：直接传递给 vllm 作为启动命令的额外参数，参数含义可参考 vllm 文档、有想开启的参数也可以通过此环境变量传入。默认为 "--enable-reasoning --reasoning-parser deepseek_r1 --enable-auto-tool-choice --tool-call-parser hermes"，表示开启思维链解析、思维链 parser 为 deepseek_r1、开启工具调用解析、默认的工具 parser 为 hermes。
		Qwen3-235B-A22B-Thinking-2507-FP8					EXTRA_PARAMS：直接传递给 vllm 作为启动命令的额外参数，参数含义可参考 vllm 文档、有想开启的参数也可以通过此环境变量传入。默认为 "--enable-expert-parallel --enable-reasoning --reasoning-parser deepseek_r1 --enable-auto-tool-choice --tool-call-parser hermes"，表示开启专家并行、开启思维链解析、思维链 parser 为 deepseek_r1、开启工具调用解析、默认的工具 parser 为 hermes。
Qwen3 Coder 系列模型	Qwen3-Coder-480B-A35B-Instruct					EXTRA_PARAMS：直接传递给 vllm 作为启动命令的额外参数，参数含义可参考 vllm 文档、有想开启的参数也可以通过此环境变量传入。默认为 "--enable-expert-parallel --enable-auto-tool-choice --tool-call-parser qwen3_xml --tool-parser-plugin examples/qwen3coder_tool_parser.py"，表示开启专家并行、开启工具调用解析、默认的工具 parser 为 qwen3_xml、同时指定了自己写的工具调用解析插件。
Qwen3 Coder 系列模型		Qwen3-Coder-480B-A35B-Instruct-FP8
Qwen2.5-VL 系列模型	Qwen2.5-VL-32B-Instruct	vllm-0.10.0-ti-20250821			MAX_MODEL_LEN 默认值为64000； LIMIT_MM_PER_PROMPT：限制提示词内容，默认为{"images":2}（每个提问最多携带2张图片）； MM_PROCESSOR_KWARGS：修改模型特定的参数，默认为{"max_pixels":3686400}。
			Qwen2.5-VL-72B-Instruct
			Qwen2.5-VL-72B-Instruct-AWQ
Qwen3 Embedding系列模型	Qwen3-Embedding-8B	vllm-0.9.1-ti-proxy-20250827			HF_OVERRIDES：指定覆盖模型config.json，本模型默认为 {"is_matryoshka":true}支持 Matryoshka embedding； PROXY：是否开启代理，默认为 False。
QwQ 系列模型	QwQ-32B	sglang-v0.4.6.post4-dev20250716	MAX_MODEL_LEN：上下文长度，默认自动； MAX_RUNNING_REQUESTS：并发上限，默认自动； MAX_CUDA_GRAPH_BS：cuda graph 上限； CHUNKED_PREFILL_SIZE：--chunked-prefill-size，默认自动； MEM_FRACTION_STATIC：--mem-fraction-static，默认自动（ds满血有调整）； ENABLE_MTP：是否开启 MTP 并行解码加速，默认未设置（ds 满血16卡默认开启）； SEPARATE_REASONING：是否思维链通过 reasoning_content 返回，默认 0； AUTO_TEMPLATE：是否自动设置对话模板和工具调用及思维链解析模板，默认 1。	MAX_CUDA_GRAPH_BS：默认自动 ENABLE_EP_MOE：是否开启 ep moe 加速，默认未设置（ds 满血默认开启）； QUANTIZATION：量化方式，默认未配置； DP_SIZE：开启 DP 加速，并设置 --dp-size 参数，默认未配置； ENABLE_MULTIMODAL：是否开启多模态支持，默认未设置。
Gemma 3系列模型	gemma-3-27b-it	vllm-0.10.0-ti-20250821	-	MAX_MODEL_LEN：默认值为64000； LIMIT_MM_PER_PROMPT：限制提示词内容，默认为{"images":2}（每个提问最多携带2张图片）； MM_PROCESSOR_KWARGS：修改模型特定的参数，默认为{"max_pixels":3686400}。
Gemma 3系列模型		vllm-0.10.0-ti-20250821	gemma-3-12b-it			-
GLM-4.5V系列模型	GLM-4.5V	vllm-0.10.2-ti-dev20250918	-	EXTRA_PARAMS: --enable-auto-tool-choice --tool-call-parser glm45 --reasoning-parser glm45 --media-io-kwargs {"video":{"num_frames":-1}}