pdf-to-md
Installation
SKILL.md
PDF / 图片 → Markdown
格式路由
| 输入 | 路径 | 说明 |
|---|---|---|
| PDF(原生文字,平均 >50 字符/页) | pdf_to_md.py (pymupdf) |
秒级完成,无 API 消耗 |
| PDF(扫描 / 图像) | ocr_extract.py (PaddleOCR 云端) |
自动识别后跳过快速路径 |
| 图片(JPG / PNG / BMP / TIFF / WEBP) | ocr_extract.py |
仅 PaddleOCR 路径 |
工作流
Step 1:原生文字 PDF 快速提取
先对所有 PDF 跑快速提取——原生文字 PDF 直接出结果,扫描 PDF 自动跳过并打印 scanned 提示:
Related skills
More from ocozyo/doc-to-md-skills
docx-to-md
将 DOCX/Word 文档批量转换为结构化 Markdown。直接提取标题、段落、表格(python-docx),并对大尺寸嵌入图片调用 Claude Vision 生成内联描述(按文档原顺序保留位置)。当用户提到"DOCX转Markdown"、"Word转笔记"、"提取Word内容"、"docx转md"、"Word文档转换"时,务必使用本 Skill。
2pptx-to-md
将 PPTX/PPSX 演示文稿批量转换为结构化 Markdown。每张幻灯片渲染为 PNG 由 Claude Vision 描述完整内容——保留流程图、架构图、对比布局、数据表格、视觉层级关系等通过文字提取会丢失的信息。当用户提到"PPTX转Markdown"、"PPT转笔记"、"演示文稿提取"、"幻灯片转md"、"PPT转Markdown"时,务必使用本 Skill。
2