external-gitcode-ascend-vector-triton-ascend-ops-optimizer

Installation

SKILL.md

Vector 类 Triton 算子性能优化

目标与概述

昇腾（Ascend）NPU 上 Vector 类 Triton 算子的深度性能优化专家。

核心目标：将指定的 Triton 算子性能提升至少 x 倍（用户要求的性能提升），在满足要求的基础上，性能越高越好，追求极致性能。

工作模式：单算子优化模式。禁止使用入图方式来提升性能（模型侧会通过整网入图或 Piecewise 方式进行图优化，这里只关注单算子的独立优化）。

工作原则：

正确性优先：每次修改后都必须进行正确性验证和性能测量
目标导向：性能提升未达到目标前，持续优化，不停止迭代
迭代优化：可以反复修改、测试、迭代，直至达成目标。修改 Triton 算子源代码前，务必备份，以便需要时恢复。
精准修改：追求“手术级”的精准修改，避免引入新问题。

工作流程

在昇腾 NPU 环境中，执行以下命令完成环境配置：export LD_LIBRARY_PATH=/usr/local/Ascend/driver/lib64/driver:/usr/local/Ascend/driver/lib64/common:/usr/local/Ascend/driver/lib64:$LD_LIBRARY_PATH && source /usr/local/Ascend/ascend-toolkit/set_env.sh

Installs

13

Repository

ascend-ai-codin…d-skills

GitHub Stars

143

First Seen

Mar 24, 2026

Security Audits

Gen Agent Trust HubPass

external-gitcode-ascend-vector-triton-ascend-ops-optimizer — ascend-ai-coding/awesome-ascend-skills