benchmark-store

Installation
SKILL.md

Benchmark Store

Frozen benchmarks, hidden tests, Pareto front, and evaluation standards.

When to Use

  • 初始化或查询基准数据库
  • 对比 skill 评分与冻结基线
  • 检查 Pareto front(任何维度回退 >5% 即拒绝)
  • 查阅质量分级标准(POWERFUL/SOLID/GENERIC/WEAK)
  • 添加新的冻结测试用例到基准库
  • 查看某个 skill 在所有维度上的历史最优分数
  • 为 improvement-gate 的 RegressionGate 提供 Pareto 基线数据
  • 在批量评估场景下列出所有已注册的 benchmark 条目

When NOT to Use

  • 给候选打分 → use improvement-discriminator
  • 自动改进 → use improvement-learner
Related skills

More from lanyasheng/auto-improvement-orchestrator-skill

Installs
1
GitHub Stars
5
First Seen
Apr 8, 2026