dynamic_batching_triton

Skill para configurar y optimizar el dynamic batching nativo de NVIDIA Triton Inference Server, agrupando requests de inferencia facial, liveness y OCR en batches óptimos para maximizar el throughput GPU. A diferencia del batching genérico a nivel aplicación, esta skill se centra en la configuración específica de Triton y sus parámetros de scheduling para el pipeline de verificación KYC.

When to use

Usar esta skill cuando el model_server_agent necesite configurar, tunear o diagnosticar el dynamic batching dentro de Triton Inference Server. Aplica al desplegar nuevos modelos en Triton, optimizar latencia vs throughput, o resolver problemas de scheduling en modelos del pipeline KYC. Esta skill es complementaria a triton_inference_server (que cubre el servidor completo) y separada de dynamic_batching genérico.

Instructions

Habilitar dynamic batching en el model config de Triton para cada modelo del pipeline:

# model_repository/arcface/config.pbtxt
name: "arcface"
platform: "onnxruntime_onnx"
max_batch_size: 32
dynamic_batching {
  preferred_batch_size: [8, 16, 32]

Related skills

More from davidcastagnetoa/skills

Installs

Repository

davidcastagnetoa/skills

First Seen

Mar 3, 2026

dynamic_batching_triton

dynamic_batching_triton

When to use

Instructions

More from davidcastagnetoa/skills

traefik

easyocr

prisma-nestjs-patterns

c4_model_structurizr

exif_metadata_analyzer

insightface_arcface