evaluation
Installation
SKILL.md
📊 Evaluation Methods for Agent Systems
Esta habilidad permite evaluar sistemáticamente el rendimiento de agentes autónomos. A diferencia del software tradicional, los agentes son no-deterministas y pueden alcanzar un objetivo por múltiples caminos válidos. La evaluación debe centrarse en los resultados (Outcomes) y la eficiencia del proceso.
Mental Model: La evaluación no es binaria (pasa/falla); es una medición multidimensional de la probabilidad de éxito y la calidad del razonamiento.
🚩 Fragilidad y Autonomía
- Fragilidad: Baja. Estos principios son robustos y fundamentales.
- Libertad: Alta en el diseño de rúbricas específicas para cada proyecto.
🚀 Cuándo Activar
- Al construir frameworks de tests para agentes.
- Para validar si un cambio en la ingeniería de contexto mejora o empeora el rendimiento.
- Al comparar diferentes modelos (ej. Flash vs Pro) para una tarea específica.
- Para establecer "Quality Gates" en pipelines de producción.