模型系列 | 模型清单 | 推理镜像 | 推理通用环境变量 | 推理非通用环境变量 |
Hunyuan 系列模型 | Hunyuan-Large-Instruct | angel-vllm-0.6.2-ti-2.1.6-dev20250627 | QUANTIZATION:量化方式,默认不指定; MAX_MODEL_LEN:上下文长度,默认自动; GPU_MEMORY_UTILIZATION:GPU显存预留比例,默认0.9。 | USE_LOOKAHEAD:默认为"0",设置为"1"表示开启 Lookahead 并行解码,很多场景下可以显著加快解码速度; NUM_SPECULATIVE_TOKENS:默认为"6",表示 Lookahead 并行解码一次解码长度,若实际需要支持的并发数较大,可以调小此值,并发数小,可以调大此值; ENFORCE_EAGER:是否强制开启 PyTorch 的 eager 模式,默认 false ,此时会额外使用 CUDA graph 做进一步加速,但会占用额外显存,并增加一些服务启动耗时; DTYPE:默认为 float16,若您希望使用 bfloat16 精度推理,请手动修改为 bfloat16; ENABLE_PREFIX_CACHING:--enable-prefix-caching,默认为 true。 |
Hunyuan A13B 系列模型 | Hunyuan-A13B-Instruct | vllm-0.10.0-ti-20250827 | MAX_MODEL_LEN:上下文长度,默认32768; MAX_BATCH_SIZE:最大并发请求数,默认256; MAX_NUM_BATCHED_TOKENS:最大并发token数,默认8000; GPU_MEMORY_UTILIZATION:GPU 显存预留比例,默认0.9; SERVED_MODEL_NAME:模型名称,默认为服务ID; QUANTIZATION:量化方式,默认未配置。 | - |
DeepSeek 系列模型 | DeepSeek-V3.1-Terminus | angel-vllm-angelacc-v19-ds31-dev20250821 | MAX_MODEL_LEN:上下文长度,默认32768; MAX_BATCH_SIZE:最大并发请求数,默认32; MAX_NUM_BATCHED_TOKENS:最大并发token数,默认8000; GPU_MEMORY_UTILIZATION:GPU 显存预留比例,tp 16 默认值为 0.85、tp8 默认值为 0.95; SERVED_MODEL_NAME:模型名称,默认为服务ID; DISABLE_LOG_REQUESTS:是否关闭日志详情,默认1,此时不打印每个请求的详细 prompt;若需要打印日志,可以改成0。 | NUM_MTP_TOKENS:MTP投机采样预测的token数,默认1;改为0表示不开启MTP;改为2表示一次预测2个token,可能会有效果损失; VLLM_MTP_REJECT_SAMPLE_METHOD:MTP投机采样策略,默认 "strict",表示严格模式;若需要加速,可以改为 "prob",性能会有提升,但输出可能不完全对齐; GPU_MEMORY_UTILIZATION: 默认单机0.95,分布式部署0.85; ENABLE_THINKING:是否开启思考模型,默认为 0 表示不开启;改为 1 表示开启。 |
| DeepSeek-V3.1-Terminus | | | |
| DeepSeek-R1-0528-AngelACC | angel-vllm-angelacc-v18-dev20250710 | MAX_MODEL_LEN:上下文长度,默认65536; MAX_BATCH_SIZE:最大并发请求数,默认128; MAX_NUM_BATCHED_TOKENS:最大并发 token数,默认8000; GPU_MEMORY_UTILIZATION:GPU 显存预留比例,默认0.85; SERVED_MODEL_NAME:模型名称,默认为服务ID; DISABLE_LOG_REQUESTS:是否关闭日志详情,默认1,此时不打印每个请求的详细 prompt;若需要打印日志,可以改成0; | SEPARATE_REASONING:是否思维链分开返回(reasoning_content字段),默认1; VLLM_MTP_REJECT_SAMPLE_METHOD:MTP投机采样策略,默认 "strict",表示严格模式;若需要加速,可以改为 "prob",性能会有提升,但输出可能不完全对齐; VLLM_CPU_GPU_OVERLAP:CPU和GPU Overlap调度加速,默认 1,表示开启;该功能开启后与约束解码不兼容(如JSON Output),有少量性能提升; TOOL_CHAT_VERSION:可设置为v2表示更新工具调用对话模板为v2版本,默认版本的工具调用效果不好可以尝试开启,对一些场景的工具调用成功率会提升,默认不使用v2版本对话模板。 |
| DeepSeek-R1-AngelACC | | | |
| DeepSeek-V3-0324-AngelACC | | | |
| DeepSeek-R1-0528-AngelACC-PD | angel-vllm-angelacc-pd-v19-dev20250812 | | VLLM_PREFILL_MAX_NUM_SEQS: Prefill 节点最大并发数,默认"8"; VLLM_DECODE_MAX_NUM_SEQS: Decode 节点最大并发数,默认"32"; VLLM_PREFILL_GPU_MEMORY_UTILIZATION: Prefill 节点显存预留比例,默认"0.85"; VLLM_DECODE_GPU_MEMORY_UTILIZATION: Decode 节点显存预留比例,默认"0.85"; VLLM_PREFILL_MAX_MODEL_LEN: Prefill 节点模型上下文长度,默认"32768"; VLLM_DECODE_MAX_MODEL_LEN: Decode 节点模型上下文长度,默认"32768"; VLLM_PREFILL_MAX_PROMPT_LEN: Prefill 节点模型输入最大长度,默认"16384"; VLLM_DECODE_MAX_PROMPT_LEN: Decode 节点模型输入最大长度,默认"16384"; VLLM_PREFILL_MAX_NUM_BATCHED_TOKENS: Prefill 节点最大一次性处理的 Token 数,默认"32768"; VLLM_DECODE_MAX_NUM_BATCHED_TOKENS: Decode 节点最大一次性处理的 Token 数,默认"64"; VLLM_NUM_PREFILLS: Prefill 节点数,默认总结点数 / 2 向上取整; VLLM_NUM_DECODES: Decode 节点数,默认总节点数 / 2 向下取整; TOOL_CHAT_VERSION:可设置为v2表示更新工具调用对话模板为v2版本,默认版本的工具调用效果不好可以尝试开启,对一些场景的工具调用成功率会提升,默认不使用v2版本对话模板; EXTRA_PARAMS:服务启动的额外参数,会原样传递给 vllm 启动命令; SEPARATE_REASONING:是否思维链分开返回(reasoning_content字段),默认1; VLLM_CPU_GPU_OVERLAP:CPU 和GPU Overlap 调度加速,默认0,表示关闭;该功能开启后与约束解码不兼容(如JSON Output),有少量性能提升。 |
| DeepSeek-R1-AngelACC-PD | | | |
| DeepSeek-V3-0324-AngelACC-PD | | | |
| DeepSeek-V3-AngelACC | sglang-v0.4.4-mtp-dev20250327 | MAX_MODEL_LEN:上下文长度,默认 65536; MAX_RUNNING_REQUESTS:并发上限,默认 64; MAX_CUDA_GRAPH_BS:cuda graph 上限,默认 64; CHUNKED_PREFILL_SIZE:--chunked-prefill-size,默认 24000; MEM_FRACTION_STATIC:--mem-fraction-static,默认 0.7; SEPARATE_REASONING:是否思维链通过 reasoning_content 返回,默认 0; ENABLE_MTP:是否开启 MTP 并行解码加速,默认 1; AUTO_TEMPLATE:是否自动设置对话模板,tool parser,reasoning parser,默认 1。 | ENABLE_DP:是否开启 DP 加速,默认 0; DP_SIZE:开启 DP 加速时的 --dp-size 参数,默认为 GPU 卡数。 |
| DeepSeek-R1-0528 | sglang-v0.4.6.post4-dev20250716 | MAX_MODEL_LEN:上下文长度,默认自动(ds 满血默认64k,llama4默认128k); MAX_RUNNING_REQUESTS:并发上限,默认自动(ds满血有调整); MAX_CUDA_GRAPH_BS:cuda graph 上限,默认自动(ds 满血有调整); CHUNKED_PREFILL_SIZE:--chunked-prefill-size,默认自动; MEM_FRACTION_STATIC:--mem-fraction-static,默认自动(ds 满血有调整); ENABLE_MTP:是否开启 MTP 并行解码加速,默认未设置(ds 满血16卡默认开启); SEPARATE_REASONING:是否思维链通过 reasoning_content 返回,默认 0; AUTO_TEMPLATE:是否自动设置对话模板和工具调用及思维链解析模板(deepseek、qwen3、qwq、llama4),默认 1。 | ENABLE_EP_MOE:是否开启 ep moe 加速,默认未设置(ds 满血默认开启); QUANTIZATION:量化方式,默认未配置; DP_SIZE:开启 DP 加速,并设置 --dp-size 参数,默认未配置; ENABLE_MULTIMODAL:是否开启多模态支持,默认未设置(llama4默认开启)。 |
| DeepSeek-V3-0324 | | | |
| DeepSeek-V3 | | | |
| DeepSeek-R1 | | | |
| DeepSeek-Prover-V2-671B | | | |
| DeepSeek-Prover-V2-7B | | | |
| DeepSeek-R1-Distill-Qwen-1.5B | | | |
| DeepSeek-R1-Distill-Qwen-7B | | | |
| DeepSeek-R1-Distill-Llama-8B | | | |
| DeepSeek-R1-Distill-Qwen-14B | | | |
| DeepSeek-R1-Distill-Qwen-32B | | | |
| DeepSeek-R1-Distill-Llama-70B | | | |
| DeepSeek-R1-Distill-Qwen-32B-AngelACC | hunyuan-H-5.1.1-v1-trtllm-ti-20250814 | - | SERVER_TIMEOUT:服务启动超时时间,默认 1800秒; MEM_FRACTION:默认 0.5; REASONING_PARSE:reasoning parser,可选值:deepseek_r1; TOOL_CALL_PARSER:tool parser,可选值:deepseek_v3; MAX_BATCH_SIZE:最大 batch size,默认值 128; MAX_INPUT_TOKEN_LEN:最大输入长度,默认值 4000; MAX_SEQ_LEN:最大上下文长度(包括输出),默认值 4500。 |
GPT-OSS 系列模型 | GPT-OSS-20B | vllm-0.10.1-gptoss-ti-20250811 | MAX_MODEL_LEN:上下文长度,默认65536; MAX_BATCH_SIZE:最大并发请求数,默认128; MAX_NUM_BATCHED_TOKENS:最大并发 token数,默认8000; GPU_MEMORY_UTILIZATION:GPU 显存预留比例,默认0.85; SERVED_MODEL_NAME:模型名称,默认为服务ID; QUANTIZATION:量化方式,默认未配置。 | - |
| GPT-OSS-120B | | | |
Cosmos-Reason1 系列模型 | Cosmos-Reason1-7B | vllm-0.9.1-ti-20250703 | MAX_MODEL_LEN:上下文长度,默认65536; MAX_BATCH_SIZE:最大并发请求数,默认128; MAX_NUM_BATCHED_TOKENS:最大并发 token数,默认8000; GPU_MEMORY_UTILIZATION:GPU 显存预留比例,默认0.85; SERVED_MODEL_NAME:模型名称,默认为服务ID; QUANTIZATION:量化方式,默认未配置。 | - |
Kimi K2 系列模型 | Kimi-K2-Instruct | sglang-v0.4.9.post2-dev20250715 | MAX_MODEL_LEN:上下文长度,默认自动; MAX_RUNNING_REQUESTS:并发上限,默认自动; MAX_CUDA_GRAPH_BS:cuda graph 上限; CHUNKED_PREFILL_SIZE:--chunked-prefill-size,默认自动; MEM_FRACTION_STATIC:--mem-fraction-static,默认自动(ds 满血有调整); ENABLE_MTP:是否开启 MTP 并行解码加速,默认未设置(ds 满血16卡默认开启); SEPARATE_REASONING:是否思维链通过 reasoning_content 返回,默认 0; AUTO_TEMPLATE:是否自动设置对话模板和工具调用及思维链解析模板,默认 1。 | MAX_CUDA_GRAPH_BS:默认128 ENABLE_EP_MOE:是否开启 ep moe 加速,默认未设置(ds 满血默认开启); QUANTIZATION:量化方式,默认未配置; DP_SIZE:开启 DP 加速,并设置 --dp-size 参数,默认未配置; ENABLE_MULTIMODAL:是否开启多模态支持,默认未设置。 |
| Kimi-K2-Instruct-0905 | | | |
Llama4 系列模型 | llama4_Maverick_17B_128E | sglang-v0.4.6.post4-dev20250716 | MAX_MODEL_LEN:上下文长度,默认自动(ds 满血默认64k,llama4 默认128k); MAX_RUNNING_REQUESTS:并发上限,默认自动(ds 满血有调整); MAX_CUDA_GRAPH_BS:cuda graph 上限,默认自动(ds 满血有调整); CHUNKED_PREFILL_SIZE:--chunked-prefill-size,默认自动; MEM_FRACTION_STATIC:--mem-fraction-static,默认自动(ds 满血有调整); ENABLE_MTP:是否开启 MTP 并行解码加速,默认未设置(ds 满血16卡默认开启); SEPARATE_REASONING:是否思维链通过 reasoning_content 返回,默认 0; AUTO_TEMPLATE:是否自动设置对话模板和工具调用及思维链解析模板(deepseek、qwen3、qwq、llama4),默认 1。 | ENABLE_EP_MOE:是否开启 ep moe 加速,默认未设置(ds 满血默认开启); QUANTIZATION:量化方式,默认未配置; DP_SIZE:开启 DP 加速,并设置 --dp-size 参数,默认未配置; ENABLE_MULTIMODAL:是否开启多模态支持,默认未设置(llama4 默认开启)。 |
| llama4_Maverick_17B_128E_Instruct | | | |
| llama4_Maverick_17B_128E_Instruct_FP8 | | | |
| llama4_Scout_17B_16E | | | |
| llama4_Scout_17B_16E_Instruct | | | |
Llama3.2 系列模型 | llama3.2_11b_vision_chat | angel-vllm-0.6.2-ti-2.1.6-dev20250627 | QUANTIZATION:量化方式,默认不指定。 MAX_MODEL_LEN:上下文长度,默认自动 GPU_MEMORY_UTILIZATION:GPU 显存预留比例,默认0.9。 | USE_LOOKAHEAD:默认为"0",设置为"1"表示开启 Lookahead 并行解码,很多场景下可以显著加快解码速度; NUM_SPECULATIVE_TOKENS:默认为"6",表示 Lookahead 并行解码一次解码长度,若实际需要支持的并发数较大,可以调小此值,并发数小,可以调大此值; ENFORCE_EAGER:是否强制开启 PyTorch 的 eager 模式,默认 false ,此时会额外使用 CUDA graph 做进一步加速,但会占用额外显存,并增加一些服务启动耗时; DTYPE:默认为 float16,若您希望使用 bfloat16 精度推理,请手动修改为 bfloat16; ENABLE_PREFIX_CACHING:--enable-prefix-caching,默认为 true。 |
| llama3.2_1b | | | |
| llama3.2_1b_chat | | | |
| llama3.2_3b | | | |
| llama3.2_3b_chat | | | |
| llama3.2_90b_vision_chat | | | |
Llama3.1 系列模型 | llama3.1_70b | | | |
| llama3.1_70b_chat | | | |
| llama3.1_8b | | | |
| llama3.1_8b_chat | | | |
Llama3 系列模型 | llama_3_70b | | | |
| llama_3_70b_chat | | | |
| llama_3_8b | | | |
| llama_3_8b_chat | | | |
Llama2 系列模型 | llama_2_13b | | | |
| llama_2_13b_chat | | | |
| llama_2_70b | | | |
| llama_2_70b_chat | | | |
| llama_2_7b | | | |
| llama_2_7b_chat | | | |
Qwen 系列模型 | qwen_14b | sglang-v0.4.6.post4-dev20250716 | MAX_MODEL_LEN:上下文长度,默认自动(ds 满血默认64k,llama4 默认128k); MAX_RUNNING_REQUESTS:并发上限,默认自动(ds 满血有调整); MAX_CUDA_GRAPH_BS:cuda graph 上限,默认自动(ds 满血有调整); CHUNKED_PREFILL_SIZE:--chunked-prefill-size,默认自动; MEM_FRACTION_STATIC:--mem-fraction-static,默认自动(ds 满血有调整); ENABLE_MTP:是否开启 MTP 并行解码加速,默认未设置(ds 满血16卡默认开启); SEPARATE_REASONING:是否思维链通过 reasoning_content :返回,默认 0; AUTO_TEMPLATE:是否自动设置对话模板和工具调用及思维链解析模板(deepseek、qwen3、qwq、llama4),默认 1。 | ENABLE_EP_MOE:是否开启 ep moe 加速,默认未设置(ds 满血默认开启); QUANTIZATION:量化方式,默认未配置; DP_SIZE:开启 DP 加速,并设置 --dp-size 参数,默认未配置; ENABLE_MULTIMODAL:是否开启多模态支持,默认未设置(llama4 默认开启)。 |
| qwen_14b_chat | | | |
Qwen3 系列模型 | Qwen3-0.6B | | | |
| Qwen3-1.7B | | | |
| Qwen3-4B | | | |
| Qwen3-8B | | | |
| Qwen3-14B | | | |
| Qwen3-32B | | | |
| Qwen3-0.6B-FP8 | | | |
| Qwen3-1.7B-FP8 | | | |
| Qwen3-4B-FP8 | | | |
| Qwen3-8B-FP8 | | | |
| Qwen3-14B-FP8 | | | |
| Qwen3-32B-FP8 | | | |
| Qwen3-30B-A3B | | | |
| Qwen3-30B-A3B-FP8 | | | |
| Qwen3-235B-A22B | | | |
| Qwen3-235B-A22B-FP8 | | | |
| Qwen3-30B-A3B-Instruct-2507 | vllm-0.9.1-ti-20250725 | MAX_MODEL_LEN:上下文长度; MAX_BATCH_SIZE:最大并发请求数,默认128; MAX_NUM_BATCHED_TOKENS:最大并发token数,默认8000; GPU_MEMORY_UTILIZATION:GPU 显存预留比例,默认0.85; SERVED_MODEL_NAME:模型名称,默认为服务ID; QUANTIZATION:量化方式,默认未配置。 | EXTRA_PARAMS:直接传递给 vllm 作为启动命令的额外参数,参数含义可参考 vllm 文档、有想开启的参数也可以通过此环境变量传入。默认为 "--enable-auto-tool-choice --tool-call-parser hermes",表示开启工具调用解析、默认的工具 parser 为 hermes。 |
| Qwen3-235B-A22B-Instruct-2507 | | | |
| Qwen3-235B-A22B-Instruct-2507-FP8 | | | EXTRA_PARAMS:直接传递给 vllm 作为启动命令的额外参数,参数含义可参考 vllm 文档、有想开启的参数也可以通过此环境变量传入。默认为 "--enable-expert-parallel --enable-auto-tool-choice --tool-call-parser hermes",表示开启专家并行、开启工具调用解析、默认的工具 parser 为 hermes。 |
| Qwen3-235B-A22B-Thinking-2507 | | | EXTRA_PARAMS:直接传递给 vllm 作为启动命令的额外参数,参数含义可参考 vllm 文档、有想开启的参数也可以通过此环境变量传入。默认为 "--enable-reasoning --reasoning-parser deepseek_r1 --enable-auto-tool-choice --tool-call-parser hermes",表示开启思维链解析、思维链 parser 为 deepseek_r1、开启工具调用解析、默认的工具 parser 为 hermes。 |
| Qwen3-235B-A22B-Thinking-2507-FP8 | | | EXTRA_PARAMS:直接传递给 vllm 作为启动命令的额外参数,参数含义可参考 vllm 文档、有想开启的参数也可以通过此环境变量传入。默认为 "--enable-expert-parallel --enable-reasoning --reasoning-parser deepseek_r1 --enable-auto-tool-choice --tool-call-parser hermes",表示开启专家并行、开启思维链解析、思维链 parser 为 deepseek_r1、开启工具调用解析、默认的工具 parser 为 hermes。 |
Qwen3 Coder 系列模型 | Qwen3-Coder-480B-A35B-Instruct | | | EXTRA_PARAMS:直接传递给 vllm 作为启动命令的额外参数,参数含义可参考 vllm 文档、有想开启的参数也可以通过此环境变量传入。默认为 "--enable-expert-parallel --enable-auto-tool-choice --tool-call-parser qwen3_xml --tool-parser-plugin examples/qwen3coder_tool_parser.py",表示开启专家并行、开启工具调用解析、默认的工具 parser 为 qwen3_xml、同时指定了自己写的工具调用解析插件。 |
| Qwen3-Coder-480B-A35B-Instruct-FP8 | | | |
Qwen2.5-VL 系列模型 | Qwen2.5-VL-32B-Instruct | vllm-0.10.0-ti-20250821 | | MAX_MODEL_LEN 默认值为64000; LIMIT_MM_PER_PROMPT: 限制提示词内容,默认为{"images":2}(每个提问最多携带2张图片); MM_PROCESSOR_KWARGS: 修改模型特定的参数,默认为{"max_pixels":3686400}。 |
| Qwen2.5-VL-72B-Instruct | | | |
| Qwen2.5-VL-72B-Instruct-AWQ | | | |
Qwen3 Embedding系列模型 | Qwen3-Embedding-8B | vllm-0.9.1-ti-proxy-20250827 | | HF_OVERRIDES:指定覆盖模型config.json,本模型默认为 {"is_matryoshka":true}支持 Matryoshka embedding; PROXY:是否开启代理,默认为 False。 |
QwQ 系列模型 | QwQ-32B | sglang-v0.4.6.post4-dev20250716 | MAX_MODEL_LEN:上下文长度,默认自动; MAX_RUNNING_REQUESTS:并发上限,默认自动; MAX_CUDA_GRAPH_BS:cuda graph 上限; CHUNKED_PREFILL_SIZE:--chunked-prefill-size,默认自动; MEM_FRACTION_STATIC:--mem-fraction-static,默认自动(ds满血有调整); ENABLE_MTP:是否开启 MTP 并行解码加速,默认未设置(ds 满血16卡默认开启); SEPARATE_REASONING:是否思维链通过 reasoning_content 返回,默认 0; AUTO_TEMPLATE:是否自动设置对话模板和工具调用及思维链解析模板,默认 1。 | MAX_CUDA_GRAPH_BS:默认自动 ENABLE_EP_MOE:是否开启 ep moe 加速,默认未设置(ds 满血默认开启); QUANTIZATION:量化方式,默认未配置; DP_SIZE:开启 DP 加速,并设置 --dp-size 参数,默认未配置; ENABLE_MULTIMODAL:是否开启多模态支持,默认未设置。 |
Gemma 3系列模型 | gemma-3-27b-it | vllm-0.10.0-ti-20250821 | - | MAX_MODEL_LEN: 默认值为64000; LIMIT_MM_PER_PROMPT: 限制提示词内容,默认为{"images":2}(每个提问最多携带2张图片); MM_PROCESSOR_KWARGS: 修改模型特定的参数,默认为{"max_pixels":3686400}。 |
| gemma-3-12b-it | | - | |
GLM-4.5V系列模型 | GLM-4.5V | vllm-0.10.2-ti-dev20250918 | - | EXTRA_PARAMS: --enable-auto-tool-choice --tool-call-parser glm45 --reasoning-parser glm45 --media-io-kwargs {"video":{"num_frames":-1}} |