catlass-operator-performance-optim
Installation
SKILL.md
Catlass 算子性能调优
核心工作流
阅读优化指南 → 获取基准数据 → 修改 Tiling 配置 → 重新编译运行 → profiler 双路径采集
→ 输出性能对比报告(落盘 + 聊天展示)→ 对比迭代 → 确定最佳配置
前置条件
| 检查项 | 说明 |
|---|---|
| 工程目录 | 存在 OPS_PROJECT_ROOT,且其下已有 catlass/docs/1_Practice/10_matmul_optimization.md |
| 算子状态 | 算子已可编译、可运行 |
| 性能数据 | 基线优先为 csrc/ops/<op>/test/ 下按 ascendc-operator-performance-eval 规范采集的 <op>_torch_npu_profiler_report.md(或本工程 benchmark_*_torch_npu_profiler.py 生成的等价 Markdown)。ascendc-operator-precision-eval 仅精度,不作性能基线 |