triton-operator-performance-optim

Installation
SKILL.md

Triton 算子性能优化(Ascend NPU)

底线(不可突破)

  1. 精度:优化后 rtol=1e-3, atol=1e-3 对齐 PyTorch-NPU。不通过则回退。
  2. 泛化性:支持原有所有输入形状和 dtype,不能 hardcode 特定尺寸。

性能比定义Ratio = torch_npu 耗时 / Triton 耗时(耗时倒数)。Ratio > 1.0 表示 Triton 更快。

优先级:正确性 > 泛化性 > 性能。

优化工作流

Phase 0: 算法审视

优化前先审视算法本身。低效算法再优化也有先天不足。

Phase 1: 分层评估

Related skills

More from ascend/agent-skills

Installs
56
GitHub Stars
14
First Seen
Apr 3, 2026