content-extract

Installation

SKILL.md

content-extract — 上层内容解析入口（MCP 语义对齐，但不跑 MCP Server）

目标：把“给我一个 URL → 产出可读 Markdown + 可追溯入口”变成一个统一入口，供后续所有业务 skill（github-explorer、写作类 skills、日报等）复用。

核心原则（来自你发的 Excel Skill 拆解文章的启发）：

行为规约层：永远给出可追溯入口（原文 URL + 解析产物路径/链接），绝不编造来源。
Token 探针：先用低成本 probe 判断可不可以直接抓；不行再走重解析（MinerU）。
反弹机制：失败时返回“下一步动作建议”，而不是一堆异常栈。

工作流（Decision Tree）

输入：url

Domain Whitelist（跳过 probe）：若 URL 属于高概率反爬/动态站点（微信/知乎等），直接走 MinerU

白名单文件：references/domain-whitelist.md
对命中白名单的 URL：强制 model_version=MinerU-HTML

Installs

160

Repository

blessonism/open…h-skills

GitHub Stars

434

First Seen

Feb 11, 2026

Security Audits

Gen Agent Trust HubPass

content-extract — blessonism/openclaw-search-skills