docx-to-md
Installation
SKILL.md
DOCX → Markdown
DOCX 是结构化 XML,文字可以直接无损提取,无需 OCR;但嵌入图片(架构图、流程图、截图)若占比较大,图文关系本身是信息——本 Skill 对超过阈值的图片调用 Claude Vision 生成文字描述,按原位置内联进 Markdown。
工作流
export ANTHROPIC_API_KEY="..."
~/.venvs/paddleocr/bin/python \
~/.cc-switch/skills/docx-to-md/scripts/docx_to_md.py \
--input "<docx_or_dir>" \
--output "<output_dir>" \
--large-image-kb 30 \
--model claude-haiku-4-5-20251001
输出:<output_dir>/<stem>.md,包含按原顺序排列的标题、段落、表格,以及大图的 > **[图片]** 描述块。
关键参数
Related skills
More from ocozyo/doc-to-md-skills
pdf-to-md
将 PDF 文件批量转换为结构化 Markdown。自动识别原生文字 PDF(pymupdf 直接提取,秒级完成)和扫描/图像 PDF(PaddleOCR 云端识别)。也支持 JPG/PNG/BMP/TIFF/WEBP 图片文件。当用户提到"PDF转Markdown"、"扫描PDF"、"图像PDF"、"图片文档"、"OCR提取"、"处理一批PDF"、"文档转Markdown"、"文档转笔记"时,务必使用本 Skill。
2pptx-to-md
将 PPTX/PPSX 演示文稿批量转换为结构化 Markdown。每张幻灯片渲染为 PNG 由 Claude Vision 描述完整内容——保留流程图、架构图、对比布局、数据表格、视觉层级关系等通过文字提取会丢失的信息。当用户提到"PPTX转Markdown"、"PPT转笔记"、"演示文稿提取"、"幻灯片转md"、"PPT转Markdown"时,务必使用本 Skill。
2