external-gitcode-ascend-fault_diagnose
Installation
SKILL.md
故障诊断
功能概述
Ascend 故障诊断工具,用于检测和分析 NPU 相关故障,帮助用户快速定位和解决问题。
前置条件
- 安装 ascend-fault-diagnose:通过
ascend-fd version命令检查是否已安装 - 安装教程:https://www.hiascend.com/document/detail/zh/mindcluster/730/faultdiag/faultdiagug/mindxdlFDUG008.html
使用说明
使用建议
- 集群规格限制:因 Linux 系统最大进程数限制(默认为 1024),集群规格建议 ≤128 台服务器(1024 卡)。若服务器数量超过此规格,需使用
ulimit -n命令调整文件描述符上限 - 避免管道命令:使用诊断工具命令时,尽量不使用管道命令,可能会影响用户 IP 的获取和日志审计