msmodelslim-quant
Installation
SKILL.md
msmodelslim-quant
华为 msmodelslim quant工具技能 - 动态 query + 容器化deployment
技能描述
本技能专为华为昇腾 NPU 服务器定制,用于在昇腾 NPU 卡上进行大语言模型的quant加速。msmodelslim 是华为昇腾生态的开源模型 compress工具,支持在昇腾 NPU 上对大模型进行 INT4/INT8/INT16 quant,显著降低模型显存占用并提升推理性能。本技能提供完整的quant工作流,包括环境检查、动态方案query、容器deployment、quant执行等。
适用场景:
- 在昇腾 NPU 服务器上进行模型quant
- 将大模型quant后deployment到昇腾 NPU 进行推理
- 优化模型性能,降低显存占用
支持的quant类型:W4A8, W4A8C8, W8A16, W8A8, W8A8S, W8A8C8, W16A16S