pdf-ocr-skill

Installation
Summary

Dual-engine OCR for extracting text from scanned PDFs and images with local or cloud processing.

  • Supports RapidOCR (local, free, no API key) and SiliconFlow API (cloud-based, high precision) with automatic fallback when local engine fails
  • Handles scanned PDFs and multiple image formats (JPG, PNG, BMP, GIF, TIFF, WEBP) with Chinese and English text recognition
  • Preserves text order and structure; automatically converts PDF pages to images for processing
  • Batch processing capability for multiple documents with configurable engine selection via environment variables or prompt keywords
SKILL.md

PDF OCR Skill

中文版本

PDF OCR技能用于从影印版PDF文件和图片文件中提取文字内容。该技能支持两种OCR引擎:

  • RapidOCR(本地引擎):无需API密钥,免费使用,识别速度快
  • 硅基流动大模型(云端引擎):使用AI大模型进行高精度OCR识别

功能特性

  • 支持影印版PDF文件的文字提取
  • 支持多种图片格式的文字识别(JPG、PNG、BMP、GIF、TIFF、WEBP)
  • 双引擎支持:RapidOCR(本地)和硅基流动API(云端)
  • 支持中文和英文文字识别
  • 保持文字的顺序和结构
  • 自动将PDF页面转换为图片进行识别
  • 智能引擎切换:当RapidOCR初始化失败时自动切换到硅基流动API

安装

Related skills
Installs
439
GitHub Stars
4
First Seen
Feb 27, 2026