funasr-transcribe

Installation
SKILL.md

FunASR 语音转文字

本 skill 提供本地语音识别服务,将音频或视频文件转换为结构化的 Markdown 文档。

功能概述

  • 支持多种音视频格式(mp4、mov、mp3、wav、m4a、flac 等)
  • 自动生成时间戳
  • 支持说话人分离(diarization,默认启用)
  • ONNX 加速模式:支持 paraformer-onnx 与实验性的 SenseVoice-Small ONNX
  • 单人快速模式--fast / "fast": true 关闭 diarization,默认仍走 paraformer
  • Paraformer ONNX 后处理优化paraformer-onnx 单人/多人路径都会先 VAD 分段,再清理文本输出、恢复标点并输出句子级时间戳;单人路径使用全局标点恢复,多人路径使用逐段标点以保留 speaker 对齐
  • 视频关键帧截图提取:自动检测并提取 PPT 幻灯片,插入到转录稿对应位置(视频文件自动启用)
  • 转录后自动附带 AI 总结提示词,Agent 可一步完成总结
  • 输出 Markdown 格式,便于阅读和编辑

依赖

系统依赖

Related skills

More from cat-xierluo/legal-skills

Installs
133
GitHub Stars
217
First Seen
Feb 20, 2026