benchmark-store

Installation

SKILL.md

Benchmark Store

Frozen benchmarks, hidden tests, Pareto front, and evaluation standards.

When to Use

初始化或查询基准数据库
对比 skill 评分与冻结基线
检查 Pareto front（任何维度回退 >5% 即拒绝）
查阅质量分级标准（POWERFUL/SOLID/GENERIC/WEAK）
添加新的冻结测试用例到基准库
查看某个 skill 在所有维度上的历史最优分数
为 improvement-gate 的 RegressionGate 提供 Pareto 基线数据
在批量评估场景下列出所有已注册的 benchmark 条目

When NOT to Use

给候选打分 → use improvement-discriminator
自动改进 → use improvement-learner

Related skills

More from lanyasheng/auto-improvement-orchestrator-skill

Installs

1

Repository

lanyasheng/auto…or-skill

GitHub Stars

5

First Seen

Apr 8, 2026

Security Audits

Gen Agent Trust HubPass