skills/skills.volces.com/multimodal-parser

multimodal-parser

SKILL.md

📄 多模态内容解析器

核心亮点

🔄 统一接口：一套API支持图片/PDF/Word/音频4大类格式解析，不需要对接多个服务
🚀 开箱即用：内置OCR、音频转文字、文档解析能力，零配置即可使用
📝 多格式输出：支持纯文本/Markdown/结构化JSON三种输出格式，适配不同LLM处理需求
💡 友好错误提示：依赖缺失时自动给出安装命令，新手也能快速上手

🎯 适用场景

多模态Agent的内容解析层
文档问答、知识库构建场景的文件预处理
图片OCR识别、语音转文字需求
批量文档解析与结构化处理

📝 参数说明

参数	类型	必填	默认值	说明
file_path	string	是	-	要解析的文件路径
file_type	string	否	auto	文件类型：image/pdf/docx/audio/auto
output_format	string	否	text	输出格式：text/markdown/structured

Installs

6

Source

skills.volces.c…/ayalili

First Seen

Apr 3, 2026