evaluation

Installation
SKILL.md

📊 Evaluation Methods for Agent Systems

Esta habilidad permite evaluar sistemáticamente el rendimiento de agentes autónomos. A diferencia del software tradicional, los agentes son no-deterministas y pueden alcanzar un objetivo por múltiples caminos válidos. La evaluación debe centrarse en los resultados (Outcomes) y la eficiencia del proceso.

Mental Model: La evaluación no es binaria (pasa/falla); es una medición multidimensional de la probabilidad de éxito y la calidad del razonamiento.

🚩 Fragilidad y Autonomía

  • Fragilidad: Baja. Estos principios son robustos y fundamentales.
  • Libertad: Alta en el diseño de rúbricas específicas para cada proyecto.

🚀 Cuándo Activar

  • Al construir frameworks de tests para agentes.
  • Para validar si un cambio en la ingeniería de contexto mejora o empeora el rendimiento.
  • Al comparar diferentes modelos (ej. Flash vs Pro) para una tarea específica.
  • Para establecer "Quality Gates" en pipelines de producción.

🧠 Conceptos Core

Installs
6
GitHub Stars
11
First Seen
Mar 11, 2026
evaluation — yuniorglez/gemini-elite-core