content-extract

Installation
SKILL.md

content-extract — 上层内容解析入口(MCP 语义对齐,但不跑 MCP Server)

目标:把“给我一个 URL → 产出可读 Markdown + 可追溯入口”变成一个统一入口,供后续所有业务 skill(github-explorer、写作类 skills、日报等)复用。

核心原则(来自你发的 Excel Skill 拆解文章的启发):

  • 行为规约层:永远给出可追溯入口(原文 URL + 解析产物路径/链接),绝不编造来源。
  • Token 探针:先用低成本 probe 判断可不可以直接抓;不行再走重解析(MinerU)。
  • 反弹机制:失败时返回“下一步动作建议”,而不是一堆异常栈。

工作流(Decision Tree)

输入:url

  1. Domain Whitelist(跳过 probe):若 URL 属于高概率反爬/动态站点(微信/知乎等),直接走 MinerU
  • 白名单文件:references/domain-whitelist.md
  • 对命中白名单的 URL:强制 model_version=MinerU-HTML
Related skills
Installs
154
GitHub Stars
428
First Seen
Feb 11, 2026