video-to-text
Installation
SKILL.md
Video to Text — 视频/音频转文字稿
依赖
- ffmpeg: 从视频中提取音频(系统已安装)
- whisperX: 语音识别 + 对齐 + 说话人分离(
pip install whisperx) - HF_TOKEN: 说话人分离需要 HuggingFace token(环境变量
HF_TOKEN)
快速执行
对于简单的转写任务,直接运行脚本:
nohup python3 {skillDir}/scripts/transcribe.py /path/to/video.mp4 \
--output-dir /path/to/output \
--output-name transcript \
--diarize \
> /tmp/transcribe.log 2>&1 &
Related skills
More from yfge/video-skills-suite
video-clipper
从长视频(直播回放、会议录像、播客)中批量生成短视频切片。基于转写文稿精确定位观点边界,自动去除静音卡顿和口吃,输出音画同步的短视频。适用于:直播切片、会议精华提取、短视频二创、播客精彩片段。
1video-pipeline
视频内容全链路处理。一个视频进去,文字稿+观点摘要+短视频切片+可发布文章全出来。串联 video-to-text → insight-extractor → video-clipper → article-forge 四个 skill 的完整流水线。适用于:直播回放、播客、会议录像的一站式内容加工。
1article-forge
从观点摘要和原始素材生成可发布的文章。支持多种文体(博客、知乎回答、公众号、技术文章),自动应用防 AI 写作规则。适用于:直播内容二次创作、观点输出为文章、素材整合成稿、任何"有料但还没成文"的场景。
1insight-extractor
从长文本(直播文稿、会议记录、播客转录、文章)中提炼核心观点、金句、争议点和行动项。输出结构化的观点摘要,可直接供 article-forge 等下游 skill 使用。适用于:直播回放分析、会议纪要提炼、长文精读、内容策划前的素材整理。
1