tensorrt

Installation
SKILL.md

tensorrt

Skill para compilar y optimizar los modelos ML del pipeline de verificación KYC usando NVIDIA TensorRT como compilador de deep learning. TensorRT transforma modelos entrenados en engines optimizados con fusión de capas, cuantización, selección de kernels y calibración, logrando latencias mínimas en GPUs NVIDIA. Esta skill se centra exclusivamente en TensorRT como herramienta de compilación, separada de onnx_runtime_standalone (runtime alternativo) y triton_inference_server (servidor de modelos).

When to use

Usar esta skill cuando el model_server_agent necesite compilar modelos a formato TensorRT engine (.plan) para producción, optimizar la latencia de inferencia de modelos faciales o de liveness, o configurar cuantización INT8/FP16 para los modelos del pipeline KYC. Aplica al preparar modelos para despliegue en Triton o como engines standalone.

Instructions

  1. Convertir el modelo ArcFace de PyTorch a ONNX como paso intermedio hacia TensorRT:
    import torch
    
    model = load_arcface_model("arcface_r100.pth")
    model.eval()
    
    dummy_input = torch.randn(1, 3, 112, 112).cuda()
    torch.onnx.export(
    
Related skills
Installs
11
First Seen
Mar 3, 2026