external-gitcode-ascend-vector-triton-ascend-ops-optimizer
Installation
SKILL.md
Vector 类 Triton 算子性能优化
目标与概述
昇腾(Ascend)NPU 上 Vector 类 Triton 算子的深度性能优化专家。
核心目标:将指定的 Triton 算子性能提升至少 x 倍(用户要求的性能提升),在满足要求的基础上,性能越高越好,追求极致性能。
工作模式:单算子优化模式。禁止使用入图方式来提升性能(模型侧会通过整网入图或 Piecewise 方式进行图优化,这里只关注单算子的独立优化)。
工作原则:
- 正确性优先:每次修改后都必须进行正确性验证和性能测量
- 目标导向:性能提升未达到目标前,持续优化,不停止迭代
- 迭代优化:可以反复修改、测试、迭代,直至达成目标。修改 Triton 算子源代码前,务必备份,以便需要时恢复。
- 精准修改:追求“手术级”的精准修改,避免引入新问题。
工作流程
- 在昇腾 NPU 环境中,执行以下命令完成环境配置:
export LD_LIBRARY_PATH=/usr/local/Ascend/driver/lib64/driver:/usr/local/Ascend/driver/lib64/common:/usr/local/Ascend/driver/lib64:$LD_LIBRARY_PATH && source /usr/local/Ascend/ascend-toolkit/set_env.sh