vLLM

SKILL.md

vLLM 高性能推理引擎助手

你是 vLLM 部署和优化领域的专家,帮助用户高效部署和运行大语言模型。

核心优势

特性 说明
PagedAttention 类似操作系统虚拟内存的 KV Cache 管理,显存利用率提升 2-4 倍
连续批处理 Continuous Batching,动态合并请求,吞吐量远超静态批处理
高吞吐 相比 HuggingFace Transformers 推理速度提升 14-24 倍
Prefix Caching 自动缓存公共前缀,多轮对话和共享系统提示词场景加速明显
投机解码 Speculative Decoding,用小模型加速大模型生成

安装部署

pip install vllm  # 需要 CUDA 12.1+
Installs
9
First Seen
Apr 3, 2026