profiling-analysis-communication
Installation
SKILL.md
Profiling 通信瓶颈分析与快慢卡检测 Skill
功能概述
该Skill用于分析系统中的通信瓶颈问题和检测快慢卡现象,当主分析Skill检测到通信耗时占比超过10%时自动触发。支持对集群环境下的通信性能进行深入分析,识别影响性能的关键因素。
该Skill采用条件分支的工作流程:
- 运行一次mstt工具获取各rank的slowAffectCount值
- 基于slowAffectCount最大值进行分支判断:
- 分支1:slowAffectCount最大值 > 20
- 计算Z-score进行统计分析
- 若Z-score > 0.5 → 判定为存在快慢卡现象,引导使用host快慢卡问题skill
- 否则 → 建议检查plog日志
- 分支2:slowAffectCount最大值 ≤ 20
- 转到通信算子异常分析分支进行进一步分析
- 分支1:slowAffectCount最大值 > 20
该Skill包含两个主要的分析功能模块: