google_vision_ocr
google_vision_ocr
Google Cloud Vision OCR es un servicio cloud de alta precisión para extracción de texto. Se usa exclusivamente como fallback cuando los motores self-hosted (PaddleOCR, EasyOCR) fallan o devuelven confianza muy baja.
When to use
Usar en el ocr_agent solo cuando todos los motores self-hosted devuelven confianza < 0.5 en los campos críticos. Nunca como motor primario para mantener la independencia de servicios externos.
Instructions
- Instalar:
pip install google-cloud-vision. - Configurar service account: exportar
GOOGLE_APPLICATION_CREDENTIALS. - Enviar imagen cifrada al API:
client.text_detection(image=vision_image). - Parsear respuesta:
response.text_annotations[0].descriptionpara texto completo. - Mapear coordenadas de bounding boxes a los campos del documento.
- Aplicar
regex_data_normalizera los resultados igual que con OCR self-hosted. - Registrar en auditoría que se usó fallback cloud (para métricas de dependencia).
Notes
More from davidcastagnetoa/skills
traefik
Reverse proxy moderno con autodiscovery nativo en Kubernetes y Let's Encrypt
67easyocr
OCR alternativo a PaddleOCR, excelente en caracteres especiales y múltiples scripts
36prisma-nestjs-patterns
>
26c4_model_structurizr
Diagramas de arquitectura C4 como código con Structurizr DSL, versionados en Git
24exif_metadata_analyzer
Analizar metadatos EXIF para detectar edición previa con Photoshop, GIMP u otros editores
19insightface_arcface
Reconocimiento facial de estado del arte con ArcFace R100 para comparar selfie con foto del documento
15