msmodelslim-quant

Installation
SKILL.md

msmodelslim-quant

华为 msmodelslim quant工具技能 - 动态 query + 容器化deployment

技能描述

本技能专为华为昇腾 NPU 服务器定制,用于在昇腾 NPU 卡上进行大语言模型的quant加速。msmodelslim 是华为昇腾生态的开源模型 compress工具,支持在昇腾 NPU 上对大模型进行 INT4/INT8/INT16 quant,显著降低模型显存占用并提升推理性能。本技能提供完整的quant工作流,包括环境检查、动态方案query、容器deployment、quant执行等。

适用场景

  • 在昇腾 NPU 服务器上进行模型quant
  • 将大模型quant后deployment到昇腾 NPU 进行推理
  • 优化模型性能,降低显存占用

支持的quant类型:W4A8, W4A8C8, W8A16, W8A8, W8A8S, W8A8C8, W16A16S

关键词

Installs
8
GitHub Stars
93
First Seen
May 14, 2026
msmodelslim-quant — ascend-ai-coding/awesome-ascend-skills