external-cannbot-model-model-infer-precision-debug
Installation
SKILL.md
推理精度问题诊断技能
当前主要覆盖 KVCache / FA 相关精度问题,其他推理精度问题后续补充。 不覆盖运行时错误(crash、hang、OOM、算子约束违反等见 model-infer-runtime-debug)。
按"症状分类 → 快速验证 → 分模块定位 → 逐层对比 → 陷阱修复"的分层策略排查精度问题。完整校验工具见 references/fa_debug_utils.md。
重要原则
- 对比驱动:所有精度判定必须基于与基线(eager 模式 / 优化前)的数值对比,不可凭直觉
- 逐步缩小范围:先定位阶段(Prefill/Decode)→ 再定位模块(KVCache 写入/FA 计算/后处理)→ 最后定位参数
- 最小改动验证:每次只修改一个变量,验证后再进入下一个
- 保留现场:调试过程中的中间 tensor 和日志必须保留,用于后续分析
- 实际执行测试:所有调试步骤由 Agent 实际执行,不将测试工作委托给用户