triton_inference_server
Installation
SKILL.md
triton_inference_server
NVIDIA Triton Inference Server centraliza el serving de todos los modelos ML del pipeline con optimización GPU, dynamic batching y múltiples frameworks soportados simultáneamente.
When to use
Usar para servir en producción todos los modelos ML: MiniFASNet, ArcFace, YOLOv8, PaddleOCR, FaceForensics classifier.
Instructions
- Lanzar con Docker:
docker run --gpus all -p 8000:8000 -p 8001:8001 -p 8002:8002 -v /models:/models nvcr.io/nvidia/tritonserver:23.10-py3. - Estructurar repositorio de modelos:
models/{model_name}/{version}/model.onnx+config.pbtxt. - Configurar
config.pbtxtpara cada modelo: input/output shapes, instance groups (GPU/CPU), dynamic batching. - Exportar modelos a ONNX antes de desplegar:
torch.onnx.export(...). - Aplicar TensorRT optimization donde sea posible (ver skill
tensorrt). - Usar el cliente gRPC para inferencia:
pip install tritonclient[grpc]. - Health check:
GET http://triton:8000/v2/health/ready.
Notes
Related skills
More from davidcastagnetoa/skills
traefik
Reverse proxy moderno con autodiscovery nativo en Kubernetes y Let's Encrypt
67easyocr
OCR alternativo a PaddleOCR, excelente en caracteres especiales y múltiples scripts
36prisma-nestjs-patterns
>
26c4_model_structurizr
Diagramas de arquitectura C4 como código con Structurizr DSL, versionados en Git
24exif_metadata_analyzer
Analizar metadatos EXIF para detectar edición previa con Photoshop, GIMP u otros editores
19insightface_arcface
Reconocimiento facial de estado del arte con ArcFace R100 para comparar selfie con foto del documento
15