ascendc-operator-performance-eval
AscendC 算子 torch_npu.profiler 性能评估
本技能目录内参考文件
执行本技能时,应优先使用 本目录 下材料:
| 文件 / 目录 | 用途 |
|---|---|
SKILL.md(本文件) |
流程、目录约定、完整 JSONL 用例规范、报告结构、固定 schedule |
references/REFERENCE_JSON_CASE_FORMAT.md |
与下文「性能用例 JSONL 规范」同文 |
references/REFERENCE_PROFILER_AND_METRICS.md |
torch_npu.profiler、op_statistic.csv、*_ascend_pt 路径 |
examples/sample_perf_cases.jsonl |
最小 LayerNorm 风格 JSONL,可复制改名 |
examples/layer_norm_profiler_reference/ |
Layer Norm 参考实现(layer_norm_profiler_common.py、benchmark_layer_norm_torch_npu_profiler.py、用例 JSONL、说明);新算子可复制该目录到 csrc/ops/<op>/test/ 再替换前向与文件名 |
角色
在 ascend-kernel 中,为 csrc/ops/<算子名>/ 建立可复用的 profiler 性能用例 与 自定义算子 vs 标杆 的 Markdown 报告流程。采集必须走 torch_npu.profiler,且 warmup 与 active 固定为 5(见下节)。细节见 references/REFERENCE_PROFILER_AND_METRICS.md。
More from ascend/agent-skills
ascendc-operator-dev
AscendC算子端到端开发编排器。当用户需要开发新算子、实现自定义算子、或完成从需求到测试的完整流程时使用。关键词:算子开发、operator development、端到端、完整流程、工作流编排、新建算子。
59ascendc-operator-design
完成AscendC算子设计 - 帮助用户完成算子的架构设计、接口定义和性能规划。当用户提到算子设计、算子开发、tiling策略、内存规划、AscendC kernel设计、两级tiling、核间切分、核内切分时,使用此skill。
59ascendc-operator-doc-gen
为AscendC算子生成PyTorch风格的接口文档(README.md)。触发场景:编译调试通过后需要生成接口文档,或用户提到"生成算子文档"、"创建README"、"文档化算子"、"帮我写文档"(算子上下文)、"算子文档"时使用。
58ascendc-operator-precision-eval
AscendC算子精度评估。对已编译安装的算子生成全面的精度测试用例集(≥30例),运行并生成精度验证报告。关键词:精度测试、precision evaluation、精度报告、accuracy、误差分析。执行完成后 MUST 在当前对话中展示总览、失败摘要与关键发现,不得仅附报告路径。
57ascendc-operator-testcase-gen
完成AscendC算子验证用例生成 - 帮助用户完成testcase设计。当用户提到用例设计、泛化用例生成、算子标杆、UT用例、精度用例、性能用例时,使用此skill。
57ascendc-operator-project-init
初始化 AscendC 算子工程并创建可编译的算子骨架。触发场景:(1) 用户要求创建新算子;(2) 关键词:ascendc算子、新建算子、算子目录、算子初始化;(3) 需要基于 ascend-kernel 模板快速落地。本 skill 不只建目录,还输出“可继续开发”的标准文件与检查清单。
57