external-cannbot-model-model-infer-precision-debug

Installation

SKILL.md

推理精度问题诊断技能

当前主要覆盖 KVCache / FA 相关精度问题，其他推理精度问题后续补充。不覆盖运行时错误（crash、hang、OOM、算子约束违反等见 model-infer-runtime-debug）。

按"症状分类 → 快速验证 → 分模块定位 → 逐层对比 → 陷阱修复"的分层策略排查精度问题。完整校验工具见 references/fa_debug_utils.md。

重要原则

对比驱动：所有精度判定必须基于与基线（eager 模式 / 优化前）的数值对比，不可凭直觉
逐步缩小范围：先定位阶段（Prefill/Decode）→ 再定位模块（KVCache 写入/FA 计算/后处理）→ 最后定位参数
最小改动验证：每次只修改一个变量，验证后再进入下一个
保留现场：调试过程中的中间 tensor 和日志必须保留，用于后续分析
实际执行测试：所有调试步骤由 Agent 实际执行，不将测试工作委托给用户

排查工作流

Installs

2

Repository

ascend-ai-codin…d-skills

GitHub Stars

101

First Seen

May 19, 2026

Security Audits

Gen Agent Trust HubPass

external-cannbot-model-model-infer-precision-debug — ascend-ai-coding/awesome-ascend-skills