ai-for-science-ai4s-profiling

Installation
SKILL.md

昇腾 NPU Profiling 采集与性能分析 Skill

本 Skill 提供在华为昇腾 NPU 上采集性能 Profiling 数据的标准化流程, 支持 L0(最小膨胀)、L1(算子级)、L2(完整调用栈)三个采集级别, 覆盖训练和推理两种场景,以及多种训练框架的接入方式。

重要默认行为

  1. 默认采集级别:当用户只说"采集 profiling"而未明确指定采集等级时, 默认采集 NPU L0(最小膨胀) 级别,即第 3.1 节的模板。 仅当用户明确要求算子分析、调用栈、内存分析等更深层需求时,才升级到 L1 或 L2。

  2. 不要修改训练/推理脚本中的 CUDA 代码:在查看用户的训练或推理脚本时, 即使代码中存在 cuda.cuda()torch.device("cuda") 等字样, 也不需要帮用户改成 npu 相关写法。 因为昇腾环境下通过 import torch_npu 配合自动迁移(transfer_to_npu), 这些 CUDA 调用会在运行时自动转换为 NPU 调用,无需手动修改源码。 Profiling 代码本身使用 torch_npu.profiler 是必要的,但训练/推理业务代码保持原样即可。

Installs
13
GitHub Stars
93
First Seen
Mar 28, 2026
ai-for-science-ai4s-profiling — ascend-ai-coding/awesome-ascend-skills