advanced-evaluation
⚖️ Advanced Evaluation (LLM-as-a-Judge)
Esta habilidad permite implementar sistemas de evaluación de grado de producción utilizando LLMs como jueces. Cubre desde la taxonomía de evaluación hasta la mitigación de sesgos sistemáticos (posición, longitud, auto-mejora).
Mental Model: La evaluación no es un evento, es un pipeline. El "LLM-as-a-Judge" no es una técnica única, sino un framework de decisiones basado en la naturaleza del dato (objetivo vs. subjetivo).
🚩 Fragilidad y Autonomía
- Fragilidad: Media. La definición de rúbricas requiere alineación con los objetivos del negocio/proyecto.
- Libertad: Alta en la implementación técnica de los pipelines de validación.
🚀 Cuándo Activar
- Al construir pipelines de evaluación automática para outputs de LLM.
- Para comparar respuestas de múltiples modelos (A/B testing de prompts).
- Al establecer estándares de calidad consistentes en equipos de desarrollo.
- Para depurar sistemas de evaluación con resultados inconsistentes.
🧠 Conceptos Core
1. Taxonomía de Evaluación
More from yuniorglez/gemini-elite-core
filament-pro
Master of Filament v4 (2026), specialized in Custom Data Sources, Nested Resources, and AI-Augmented Admin Panels.
80remotion-expert
Senior Specialist in Remotion v4.0+, React 19, and Next.js 16. Expert in programmatic video generation, sub-frame animation precision, and AI-driven video workflows for 2026.
59tailwind4-expert
Senior expert in Tailwind CSS 4.0+, CSS-First architecture, and modern Design Systems. Use when configuring themes, migrating from v3, or implementing native container queries.
49pdf-pro
Master of PDF engineering, specialized in AI-driven extraction, high-fidelity Generation (Puppeteer), and PDF 2.0 Security.
46threejs-expert
Senior WebGPU & 3D Graphics Architect for 2026. Specialized in Three.js v172+, WebGPU-first rendering, TSL (Three Shader Language), and high-performance React 19 integration via `@react-three/fiber` and `@react-three/drei`. Expert in building immersive, low-latency, and accessible 3D experiences for the modern web.
38ui-ux-specialist
Senior Accessibility & Frontend Engineer. Expert in WCAG 2.2 standards, Semantic HTML, and Inclusive Design for 2026.
37