byted-las-vlm-video
SKILL.md
LAS 视频内容理解(las_vlm_video)
基于豆包视觉大模型对视频进行理解和分析(物体识别、动作分析、场景描述、摘要、字幕生成)。视频自动压缩到 50MB 以内再推理。
设计模式
本 skill 主要采用:
- Tool Wrapper:封装
lasutilCLI 调用 - Pipeline:包含 Step 0 → Step N 的顺序工作流
核心 API 与配置
- 算子 ID:
las_vlm_video - API: 同步(
process) - 环境变量:
LAS_API_KEY(必填) - 视频限制: 需公网/火山内网可访问,≤ 1GiB,暂不支持理解音频信息。
详细参数与接口定义见 references/api.md。