pdf-to-md

Installation

SKILL.md

PDF / 图片 → Markdown

格式路由

输入	路径	说明
PDF（原生文字，平均 >50 字符/页）	`pdf_to_md.py` (pymupdf)	秒级完成，无 API 消耗
PDF（扫描 / 图像）	`ocr_extract.py` (PaddleOCR 云端)	自动识别后跳过快速路径
图片（JPG / PNG / BMP / TIFF / WEBP）	`ocr_extract.py`	仅 PaddleOCR 路径

工作流

Step 1：原生文字 PDF 快速提取

先对所有 PDF 跑快速提取——原生文字 PDF 直接出结果，扫描 PDF 自动跳过并打印 scanned 提示：

Related skills

More from ocozyo/doc-to-md-skills

docx-to-md
将 DOCX/Word 文档批量转换为结构化 Markdown。直接提取标题、段落、表格（python-docx），并对大尺寸嵌入图片调用 Claude Vision 生成内联描述（按文档原顺序保留位置）。当用户提到"DOCX转Markdown"、"Word转笔记"、"提取Word内容"、"docx转md"、"Word文档转换"时，务必使用本 Skill。
2
pptx-to-md
将 PPTX/PPSX 演示文稿批量转换为结构化 Markdown。每张幻灯片渲染为 PNG 由 Claude Vision 描述完整内容——保留流程图、架构图、对比布局、数据表格、视觉层级关系等通过文字提取会丢失的信息。当用户提到"PPTX转Markdown"、"PPT转笔记"、"演示文稿提取"、"幻灯片转md"、"PPT转Markdown"时，务必使用本 Skill。
2

Installs

2

Repository

ocozyo/doc-to-md-skills

First Seen

9 days ago