opendataloader-pdf
OpenDataLoader PDF
PDF 解析器 · 基准测试第一 · RAG/LLM 数据提取利器
功能定位
- 核心能力:从任意 PDF 提取结构化数据(Markdown、JSON、HTML),带边界框坐标
- 技术亮点:XY-Cut++ 读取顺序、Bounding Box 定位、AI 混合模式处理复杂页面
- 基准成绩:综合 0.90(第一),表格 0.93,读取顺序 0.94(对标 Docling、Marker、MinerU 等)
- 许可证:Apache 2.0(核心功能免费)
适用场景
- 批量提取 PDF 为 Markdown / JSON / HTML 用于 RAG 或 LLM 训练
- 需要边界框坐标做源码溯源(哪个段落来自 PDF 第几页哪个位置)
- 复杂表格、扫描件、含公式的学术 PDF
- PDF 无障碍化(Tagged PDF 生成,Q2 2026 免费开放)
安装
More from chujianyun/skills
prompt-optimizer
Prompt 优化助手。适用于用户想优化提示词、改进 AI 指令、为特定任务设计更好的 prompt,或需要选择合适提示框架时使用。会根据任务场景匹配合适框架,必要时先追问关键信息,再输出更清晰、更可执行的提示词版本。
124skill-optimizer
审查并优化现有 skill 的触发语义、工作流、确认门槛、资源组织、安全边界与文档分层。当用户提到“优化 skill”“检查 skill 质量”“改进某个 skill”“重构技能说明”,或明确说明要优化哪些方面时使用。默认先审查并给计划,只有在用户明确确认开始修改后才实施。
62claudian-installer
Claudian 安装助手。适用于用户想在 Obsidian 仓库中安装 Claudian 插件,或提到“Claudian”“Claude Code in Obsidian”“install Claudian plugin”时使用。会把插件文件复制到目标 vault 并引导用户启用插件。
61qoder-wiki
Qoder 官方文档知识库,包含产品介绍、用户指南、功能配置、扩展能力、账户定价和故障排查。当用户询问 Qoder 相关问题(如安装、使用、功能、定价、快捷键、MCP、Skills、Quest Mode、Repo Wiki 等)时使用此 skill。
60openclaw-session-cleaner
OpenClaw session 清理助手。用于用户提到清理 OpenClaw sessions、删除旧 cron session、压缩或重建 sessions.json、排查 session 文件膨胀时使用。触发后优先检查 ~/.openclaw/agents/main/sessions/ 下的 session 文件数量和 sessions.json 大小,并按指令执行清理。
50openclaw-wiki
OpenClaw 官方文档知识库。适用于用户询问 OpenClaw 相关问题,如安装、配置、Gateway、WhatsApp/Telegram/Discord 等渠道连接、Sessions、Tools、Skills、Pi Agent、CLI、故障排查等场景。默认先查本地文档,文档不足时再考虑联网补充。
47