FunASR 语音转文字

本 skill 提供本地语音识别服务，将音频或视频文件转换为结构化的 Markdown 文档。

功能概述

支持多种音视频格式（mp4、mov、mp3、wav、m4a、flac 等）
自动生成时间戳
支持说话人分离（diarization，默认启用）
ONNX 加速模式：支持 paraformer-onnx 与实验性的 SenseVoice-Small ONNX
单人快速模式：--fast / "fast": true 关闭 diarization，默认仍走 paraformer
Paraformer ONNX 后处理优化：paraformer-onnx 单人/多人路径都会先 VAD 分段，再清理文本输出、恢复标点并输出句子级时间戳；单人路径使用全局标点恢复，多人路径使用逐段标点以保留 speaker 对齐
视频关键帧截图提取：自动检测并提取 PPT 幻灯片，插入到转录稿对应位置（视频文件自动启用）
转录后自动附带 AI 总结提示词，Agent 可一步完成总结
输出 Markdown 格式，便于阅读和编辑