advanced-evaluation

Installation
SKILL.md

⚖️ Advanced Evaluation (LLM-as-a-Judge)

Esta habilidad permite implementar sistemas de evaluación de grado de producción utilizando LLMs como jueces. Cubre desde la taxonomía de evaluación hasta la mitigación de sesgos sistemáticos (posición, longitud, auto-mejora).

Mental Model: La evaluación no es un evento, es un pipeline. El "LLM-as-a-Judge" no es una técnica única, sino un framework de decisiones basado en la naturaleza del dato (objetivo vs. subjetivo).

🚩 Fragilidad y Autonomía

  • Fragilidad: Media. La definición de rúbricas requiere alineación con los objetivos del negocio/proyecto.
  • Libertad: Alta en la implementación técnica de los pipelines de validación.

🚀 Cuándo Activar

  • Al construir pipelines de evaluación automática para outputs de LLM.
  • Para comparar respuestas de múltiples modelos (A/B testing de prompts).
  • Al establecer estándares de calidad consistentes en equipos de desarrollo.
  • Para depurar sistemas de evaluación con resultados inconsistentes.

🧠 Conceptos Core

1. Taxonomía de Evaluación

Related skills
Installs
6
GitHub Stars
10
First Seen
Mar 11, 2026