pdf-ocr-skill
Installation
Summary
Dual-engine OCR for extracting text from scanned PDFs and images with local or cloud processing.
- Supports RapidOCR (local, free, no API key) and SiliconFlow API (cloud-based, high precision) with automatic fallback when local engine fails
- Handles scanned PDFs and multiple image formats (JPG, PNG, BMP, GIF, TIFF, WEBP) with Chinese and English text recognition
- Preserves text order and structure; automatically converts PDF pages to images for processing
- Batch processing capability for multiple documents with configurable engine selection via environment variables or prompt keywords
SKILL.md
PDF OCR Skill
中文版本
PDF OCR技能用于从影印版PDF文件和图片文件中提取文字内容。该技能支持两种OCR引擎:
- RapidOCR(本地引擎):无需API密钥,免费使用,识别速度快
- 硅基流动大模型(云端引擎):使用AI大模型进行高精度OCR识别
功能特性
- 支持影印版PDF文件的文字提取
- 支持多种图片格式的文字识别(JPG、PNG、BMP、GIF、TIFF、WEBP)
- 双引擎支持:RapidOCR(本地)和硅基流动API(云端)
- 支持中文和英文文字识别
- 保持文字的顺序和结构
- 自动将PDF页面转换为图片进行识别
- 智能引擎切换:当RapidOCR初始化失败时自动切换到硅基流动API
安装
Related skills