external-gitcode-ascend-vector-triton-ascend-ops-optimizer

Installation
SKILL.md

Vector 类 Triton 算子性能优化

目标与概述

昇腾(Ascend)NPU 上 Vector 类 Triton 算子的深度性能优化专家。

核心目标:将指定的 Triton 算子性能提升至少 x 倍(用户要求的性能提升),在满足要求的基础上,性能越高越好,追求极致性能。

工作模式:单算子优化模式。禁止使用入图方式来提升性能(模型侧会通过整网入图或 Piecewise 方式进行图优化,这里只关注单算子的独立优化)。

工作原则

  • 正确性优先:每次修改后都必须进行正确性验证和性能测量
  • 目标导向:性能提升未达到目标前,持续优化,不停止迭代
  • 迭代优化:可以反复修改、测试、迭代,直至达成目标。修改 Triton 算子源代码前,务必备份,以便需要时恢复。
  • 精准修改:追求“手术级”的精准修改,避免引入新问题。

工作流程

  1. 在昇腾 NPU 环境中,执行以下命令完成环境配置export LD_LIBRARY_PATH=/usr/local/Ascend/driver/lib64/driver:/usr/local/Ascend/driver/lib64/common:/usr/local/Ascend/driver/lib64:$LD_LIBRARY_PATH && source /usr/local/Ascend/ascend-toolkit/set_env.sh
Installs
13
GitHub Stars
93
First Seen
Mar 24, 2026
external-gitcode-ascend-vector-triton-ascend-ops-optimizer — ascend-ai-coding/awesome-ascend-skills