external-gitcode-ascend-verl-feature-deploy
Installation
SKILL.md
Verl Deploy - 训练服务一键拉起
在 NPU 集群上拉起 Verl 分布式训练服务,并灵活配置加速特性,支持 DAPO/GRPO 等 RLHF 算法。
核心原则
- 用户配置优先:用户明确指定 > 自动检测 > 默认值
- 配置必须验证:路径、镜像等运行前检测有效性,不猜测
- 用户确认是阻断点:执行前展示配置清单并等待确认
- 严格区分宿主机/容器内:docker cp 在宿主机执行,进入容器后不再使用 docker 前缀命令
整体流程
1. 环境预检查 → 2. 用户交互 → 3. 配置确认 → 4. 镜像准备+容器拉起 → 5. SwanLab 配置 → 6. 生成双脚本 → 7. 复制+执行 → 8. 验证