opendataloader-pdf

Installation
SKILL.md

OpenDataLoader PDF

PDF 解析器 · 基准测试第一 · RAG/LLM 数据提取利器

功能定位

  • 核心能力:从任意 PDF 提取结构化数据(Markdown、JSON、HTML),带边界框坐标
  • 技术亮点:XY-Cut++ 读取顺序、Bounding Box 定位、AI 混合模式处理复杂页面
  • 基准成绩:综合 0.90(第一),表格 0.93,读取顺序 0.94(对标 Docling、Marker、MinerU 等)
  • 许可证:Apache 2.0(核心功能免费)

适用场景

  • 批量提取 PDF 为 Markdown / JSON / HTML 用于 RAG 或 LLM 训练
  • 需要边界框坐标做源码溯源(哪个段落来自 PDF 第几页哪个位置)
  • 复杂表格、扫描件、含公式的学术 PDF
  • PDF 无障碍化(Tagged PDF 生成,Q2 2026 免费开放)

安装

Related skills

More from chujianyun/skills

Installs
51
GitHub Stars
570
First Seen
Mar 19, 2026