onnx_runtime_standalone

Installation
SKILL.md

onnx_runtime_standalone

Skill para desplegar y gestionar ONNX Runtime como runtime de inferencia independiente para los modelos del pipeline de verificación KYC. ONNX Runtime ofrece una alternativa ligera a Triton Inference Server para escenarios de deployment más simples, edge computing o entornos donde no se dispone de infraestructura GPU enterprise. Soporta ejecución en CPU y GPU con providers intercambiables (CUDA, TensorRT, OpenVINO, DirectML).

When to use

Usar esta skill cuando el model_server_agent necesite desplegar modelos del pipeline KYC sin la complejidad de Triton, en entornos con recursos limitados, deployments edge o single-node. Aplica como alternativa ligera para ambientes de staging, demos, o cuando se requiere inferencia en CPU. Esta skill es independiente de triton_inference_server y tensorrt.

Instructions

  1. Instalar ONNX Runtime con el execution provider adecuado para el entorno:
    # GPU con CUDA
    pip install onnxruntime-gpu==1.18.0
    
    # CPU only (deployments ligeros)
    pip install onnxruntime==1.18.0
    
    # Con TensorRT provider (máximo rendimiento GPU sin Triton)
    
Related skills
Installs
7
First Seen
Mar 3, 2026