evaluation

Installation

SKILL.md

Evaluation Skill

Evaluate LLM outputs systematically with rubrics, handle non-determinism, and implement LLM-as-judge patterns.

Research shows 95% of output variance comes from just two sources:

Temperature, model version, and other factors account for only 5%.

Implication: Focus evaluation on prompt quality, not model tweaking.

Installs

Repository

GitHub Stars

First Seen

May 2, 2026

Security Audits

evaluation — greyhaven-ai/claude-code-config