onnx_runtime_standalone

Skill para desplegar y gestionar ONNX Runtime como runtime de inferencia independiente para los modelos del pipeline de verificación KYC. ONNX Runtime ofrece una alternativa ligera a Triton Inference Server para escenarios de deployment más simples, edge computing o entornos donde no se dispone de infraestructura GPU enterprise. Soporta ejecución en CPU y GPU con providers intercambiables (CUDA, TensorRT, OpenVINO, DirectML).

When to use

Usar esta skill cuando el model_server_agent necesite desplegar modelos del pipeline KYC sin la complejidad de Triton, en entornos con recursos limitados, deployments edge o single-node. Aplica como alternativa ligera para ambientes de staging, demos, o cuando se requiere inferencia en CPU. Esta skill es independiente de triton_inference_server y tensorrt.

Instructions

Instalar ONNX Runtime con el execution provider adecuado para el entorno:

# GPU con CUDA
pip install onnxruntime-gpu==1.18.0

# CPU only (deployments ligeros)
pip install onnxruntime==1.18.0

# Con TensorRT provider (máximo rendimiento GPU sin Triton)

Related skills

More from davidcastagnetoa/skills

Installs

Repository

davidcastagnetoa/skills

First Seen

Mar 3, 2026

onnx_runtime_standalone

onnx_runtime_standalone

When to use

Instructions

More from davidcastagnetoa/skills

traefik

easyocr

prisma-nestjs-patterns

c4_model_structurizr

exif_metadata_analyzer

insightface_arcface