triton-operator-performance-optim

Installation

SKILL.md

Triton 算子性能优化（Ascend NPU）

底线（不可突破）

精度：优化后 rtol=1e-3, atol=1e-3 对齐 PyTorch-NPU。不通过则回退。
泛化性：支持原有所有输入形状和 dtype，不能 hardcode 特定尺寸。

性能比定义：Ratio = torch_npu 耗时 / Triton 耗时（耗时倒数）。Ratio > 1.0 表示 Triton 更快。

优先级：正确性 > 泛化性 > 性能。

优化工作流

Phase 0: 算法审视

优化前先审视算法本身。低效算法再优化也有先天不足。

Phase 1: 分层评估

Installs

135

Repository

ascend/agent-skills

GitHub Stars

30

First Seen

Apr 3, 2026

Security Audits

Gen Agent Trust HubPass

triton-operator-performance-optim — ascend/agent-skills