首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

SGLang 优化参数中文说明

一、基础配置二、模型与分词器三、并行策略四、内存与调度五、服务与API六、内核与后端七、调试与优化八、高级功能九、日志与监控十、其他关键参数完整命令示例

python3 -m sglang.launch_server \

--model-path /mnt/disk1/LLM/QwQ-32B \

--host 0.0.0.0 \

--port 4000 \

--dtype half \

--trust-remote-code \

--tp 4 \

--max-total-tokens 96000 \

--max-running-requests 6 \

--mem-fraction-static 0.9 \

--max-prefill-tokens 16384 \

--chunked-prefill-size 4096 \

--schedule-policy lpm \

--attention-backend flashinfer \

--stream-output \

--device cuda \

--kv-cache-dtype auto \

--stream-interval 2 \

--disable-cuda-graph-padding \

--enable-metrics \

--warmups 3 \

--triton-attention-num-kv-splits 4 \

--reasoning-parser deepseek-r1关键配置总结

性能调优

通过--tp+--chunked-prefill-size平衡显存与吞吐。

使用--warmups减少冷启动延迟。

生产部署

务必设置--enable-metrics监控服务状态。

多节点时通过--dist-init-addr指定通信地址。

DeepSeek 专用

--reasoning-parser deepseek-r1启用定制推理逻辑。

配合--quantization fp8实现高效量化。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O4lOBYJ_L07Fb2mImrE46IJQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券