一、基础配置二、模型与分词器三、并行策略四、内存与调度五、服务与API六、内核与后端七、调试与优化八、高级功能九、日志与监控十、其他关键参数完整命令示例
python3 -m sglang.launch_server \
--model-path /mnt/disk1/LLM/QwQ-32B \
--host 0.0.0.0 \
--port 4000 \
--dtype half \
--trust-remote-code \
--tp 4 \
--max-total-tokens 96000 \
--max-running-requests 6 \
--mem-fraction-static 0.9 \
--max-prefill-tokens 16384 \
--chunked-prefill-size 4096 \
--schedule-policy lpm \
--attention-backend flashinfer \
--stream-output \
--device cuda \
--kv-cache-dtype auto \
--stream-interval 2 \
--disable-cuda-graph-padding \
--enable-metrics \
--warmups 3 \
--triton-attention-num-kv-splits 4 \
--reasoning-parser deepseek-r1关键配置总结
性能调优:
通过--tp+--chunked-prefill-size平衡显存与吞吐。
使用--warmups减少冷启动延迟。
生产部署:
务必设置--enable-metrics监控服务状态。
多节点时通过--dist-init-addr指定通信地址。
DeepSeek 专用:
--reasoning-parser deepseek-r1启用定制推理逻辑。
配合--quantization fp8实现高效量化。
领取专属 10元无门槛券
私享最新 技术干货