昇腾 NPU Profiling 采集与性能分析 Skill

本 Skill 提供在华为昇腾 NPU 上采集性能 Profiling 数据的标准化流程，支持 L0（最小膨胀）、L1（算子级）、L2（完整调用栈）三个采集级别，覆盖训练和推理两种场景，以及多种训练框架的接入方式。

重要默认行为

默认采集级别：当用户只说"采集 profiling"而未明确指定采集等级时，默认采集 NPU L0（最小膨胀） 级别，即第 3.1 节的模板。仅当用户明确要求算子分析、调用栈、内存分析等更深层需求时，才升级到 L1 或 L2。
不要修改训练/推理脚本中的 CUDA 代码：在查看用户的训练或推理脚本时，即使代码中存在 cuda、.cuda()、torch.device("cuda") 等字样，也不需要帮用户改成 npu 相关写法。因为昇腾环境下通过 import torch_npu 配合自动迁移（transfer_to_npu），这些 CUDA 调用会在运行时自动转换为 NPU 调用，无需手动修改源码。 Profiling 代码本身使用 torch_npu.profiler 是必要的，但训练/推理业务代码保持原样即可。