最近刷到一篇很细致的大模型推理入门文章,推荐给大家,链接:https://www.aleksagordic.com/blog/vllm
如果你:
1. 对SOTA大模型推理引擎好奇
2. 有意参与 vLLM,SGLang 推理引擎的开源贡献
那么这篇文章就是适合你的
这篇文章分为五个部分:
1. LLM 引擎 & 引擎核心:vLLM基础,调度机制、分页注意力(Paged Attention)、连续批处理(Continuous Batching)等
2. 高级特性:分块预填充(Chunked Prefill)、前缀缓存(Prefix Caching)、引导式与推测解码(Guided & Speculative Decoding)、P/D 解耦(Disaggregated Prefill/Decode)
3. 规模扩展(Scaling Up):从单 GPU 推理到多 GPU 并行
4. 服务层(Serving Layer):分布式 / 并发 Web 服务架构
5. 基准测试与自动调优:延迟与吞吐量的测量方法
我也花时间读一下,之后写长文给大家分享