catlass-operator-dev
Installation
SKILL.md
Catlass 算子端到端开发编排
Skill 类型:流程导向型(六阶段工作流;Catlass 源码准备并入 Phase 1,子技能串行编排)
本 skill 编排 ascend-kernel 上 Catlass 算子从零到生产可用;通用能力(工程骨架、编译调试、接口文档、精度、性能)复用 ascendc-* 子 skill,Catlass 专属(源码树、设计、Device/Host 落地)使用 catlass-* 子 skill。
核心原则
- 六阶段串行:工程初始化(含 Catlass 源码)→ 设计文档 → 代码生成与编译测试 → 接口文档 → 精度评估 → 性能评测,严格顺序执行
- 子技能执行:每个阶段 MUST 打开并遵循对应子 skill,不得自行替代实现
- 阶段门控:前一阶段检查点全部通过后才进入下一阶段
- 设计驱动编码:代码生成依赖 catlass-operator-design 定稿的
design.md与 catlass/examples 选型 - 无需用户预先手写设计文档:设计阶段由 catlass-operator-design 生成并落盘
- 文档闭环:编译测试通过后 MUST 生成 PyTorch 风格中文接口文档(Phase 4),并在聊天界面展示
- 精度闭环:算子必须通过 ≥30 例全面精度评估(Phase 5)才算完成
- 性能闭环:算子必须完成 torch_npu.profiler 对比评测并输出性能报告(Phase 6);结论以 ascendc-operator-performance-eval 为准
- 结果可视化:Phase 3/4/5/6 的关键结果 MUST 以 Markdown 等形式直接展示在聊天界面,不要仅输出路径
- 算子命名:
op_name(snake_case)必须包含子串catlass,与 ascend-kernel 内既有 Catlass 算子约定一致 - 诚实停机:因环境或依赖无法继续时,说明具体原因与已完成步骤后停止