⚖️ Advanced Evaluation (LLM-as-a-Judge)

Esta habilidad permite implementar sistemas de evaluación de grado de producción utilizando LLMs como jueces. Cubre desde la taxonomía de evaluación hasta la mitigación de sesgos sistemáticos (posición, longitud, auto-mejora).

Mental Model: La evaluación no es un evento, es un pipeline. El "LLM-as-a-Judge" no es una técnica única, sino un framework de decisiones basado en la naturaleza del dato (objetivo vs. subjetivo).

🚩 Fragilidad y Autonomía

Fragilidad: Media. La definición de rúbricas requiere alineación con los objetivos del negocio/proyecto.
Libertad: Alta en la implementación técnica de los pipelines de validación.

🚀 Cuándo Activar

Al construir pipelines de evaluación automática para outputs de LLM.
Para comparar respuestas de múltiples modelos (A/B testing de prompts).
Al establecer estándares de calidad consistentes en equipos de desarrollo.
Para depurar sistemas de evaluación con resultados inconsistentes.

advanced-evaluation

⚖️ Advanced Evaluation (LLM-as-a-Judge)

🚩 Fragilidad y Autonomía

🚀 Cuándo Activar

🧠 Conceptos Core