Triton 算子性能评估（Ascend NPU）

核心原则

只相信 msprof 数据，不凭直觉。

性能比（Ratio）定义：Ratio = torch_npu 耗时 / Triton 耗时。Ratio > 1.0 表示 Triton 更快，Ratio < 1.0 表示更慢。不是耗时的直接比值，而是耗时的倒数。目标通常为 Ratio ≥ 1.0x。

唯一可信采集方式：msprof（函数级）和 msprof op（算子级）。其他方式（time.time()、torch.npu.Event、do_bench等）因包含 Host 开销且精度不足，绝对不可用于性能评估。

命令	用途	典型场景
`msprof --application="python x.py"`	函数级：多算子对比、全链路分析	"哪个算子最慢？"
`msprof op --kernel-name=K python x.py`	算子级：硬件利用率、Bank Conflict	"这个 kernel 为什么慢？"

决策：先 msprof 定位热点，再 msprof op 深度分析。