nan-overflow-detection
Installation
SKILL.md
NaN 溢出检测与根因追溯
此 skill 分两步完成完整的 NaN 溢出分析:
- 跨 rank 源卡检测 — 分析所有 rank 的通信算子,定位源卡
- 单卡根因追溯 — 在已知源卡后,追溯该卡上产生 NaN 的计算算子
重要说明:执行顺序
dump.json 中算子的出现顺序即为执行顺序,无需根据算子名称中的数字来排序。
此 skill 分两步完成完整的 NaN 溢出分析:
dump.json 中算子的出现顺序即为执行顺序,无需根据算子名称中的数字来排序。