dynamic_batching_triton

Installation
SKILL.md

dynamic_batching_triton

Skill para configurar y optimizar el dynamic batching nativo de NVIDIA Triton Inference Server, agrupando requests de inferencia facial, liveness y OCR en batches óptimos para maximizar el throughput GPU. A diferencia del batching genérico a nivel aplicación, esta skill se centra en la configuración específica de Triton y sus parámetros de scheduling para el pipeline de verificación KYC.

When to use

Usar esta skill cuando el model_server_agent necesite configurar, tunear o diagnosticar el dynamic batching dentro de Triton Inference Server. Aplica al desplegar nuevos modelos en Triton, optimizar latencia vs throughput, o resolver problemas de scheduling en modelos del pipeline KYC. Esta skill es complementaria a triton_inference_server (que cubre el servidor completo) y separada de dynamic_batching genérico.

Instructions

  1. Habilitar dynamic batching en el model config de Triton para cada modelo del pipeline:

    # model_repository/arcface/config.pbtxt
    name: "arcface"
    platform: "onnxruntime_onnx"
    max_batch_size: 32
    dynamic_batching {
      preferred_batch_size: [8, 16, 32]
    
Related skills
Installs
11
First Seen
Mar 3, 2026