tensorrt_onnx
Installation
SKILL.md
tensorrt_onnx
TensorRT compila modelos ONNX para el hardware GPU específico del servidor, aplicando fusión de capas, cuantización FP16/INT8 y otras optimizaciones que reducen la latencia hasta 5x.
When to use
Aplicar a todos los modelos ML antes del despliegue en producción en servidores con GPU NVIDIA.