ai-for-science-ai4s-profiling
Installation
SKILL.md
昇腾 NPU Profiling 采集与性能分析 Skill
本 Skill 提供在华为昇腾 NPU 上采集性能 Profiling 数据的标准化流程, 支持 L0(最小膨胀)、L1(算子级)、L2(完整调用栈)三个采集级别, 覆盖训练和推理两种场景,以及多种训练框架的接入方式。
重要默认行为
-
默认采集级别:当用户只说"采集 profiling"而未明确指定采集等级时, 默认采集 NPU L0(最小膨胀) 级别,即第 3.1 节的模板。 仅当用户明确要求算子分析、调用栈、内存分析等更深层需求时,才升级到 L1 或 L2。
-
不要修改训练/推理脚本中的 CUDA 代码:在查看用户的训练或推理脚本时, 即使代码中存在
cuda、.cuda()、torch.device("cuda")等字样, 也不需要帮用户改成npu相关写法。 因为昇腾环境下通过import torch_npu配合自动迁移(transfer_to_npu), 这些 CUDA 调用会在运行时自动转换为 NPU 调用,无需手动修改源码。 Profiling 代码本身使用torch_npu.profiler是必要的,但训练/推理业务代码保持原样即可。