external-cannbot-model-model-infer-precision-debug

Installation
SKILL.md

推理精度问题诊断技能

当前主要覆盖 KVCache / FA 相关精度问题,其他推理精度问题后续补充。 不覆盖运行时错误(crash、hang、OOM、算子约束违反等见 model-infer-runtime-debug)。

按"症状分类 → 快速验证 → 分模块定位 → 逐层对比 → 陷阱修复"的分层策略排查精度问题。完整校验工具见 references/fa_debug_utils.md

重要原则

  • 对比驱动:所有精度判定必须基于与基线(eager 模式 / 优化前)的数值对比,不可凭直觉
  • 逐步缩小范围:先定位阶段(Prefill/Decode)→ 再定位模块(KVCache 写入/FA 计算/后处理)→ 最后定位参数
  • 最小改动验证:每次只修改一个变量,验证后再进入下一个
  • 保留现场:调试过程中的中间 tensor 和日志必须保留,用于后续分析
  • 实际执行测试:所有调试步骤由 Agent 实际执行,不将测试工作委托给用户

排查工作流

Installs
2
GitHub Stars
101
First Seen
May 19, 2026
external-cannbot-model-model-infer-precision-debug — ascend-ai-coding/awesome-ascend-skills