external-gitcode-ascend-triton-operator-performance-optim
Installation
SKILL.md
Triton 算子性能优化(Ascend NPU)
底线(不可突破)
- 精度:优化后 rtol=1e-3, atol=1e-3 对齐 PyTorch-NPU。不通过则回退。
- 泛化性:支持原有所有输入形状和 dtype,不能 hardcode 特定尺寸。
性能比定义:Ratio = torch_npu 耗时 / Triton 耗时(耗时倒数)。Ratio > 1.0 表示 Triton 更快。
优先级:正确性 > 泛化性 > 性能。
优化工作流
Phase 0: 算法审视
优化前先审视算法本身。低效算法再优化也有先天不足。