byted-voice-to-text
Voice to Text Skill
基于火山引擎 BigModel ASR 将语音转为文字。准确率和多语言能力远优于本地 whisper,且速度更快。
核心执行流
- 收到飞书语音消息(
message_type: audio),需要自动识别语音内容 - 用户给音频要转文字:
- 先跑
inspect_audio.py - 再按时长、大小、URL/本地路径选择
asr_flash.py(极速版)或asr_standard.py(标准版)
- 先跑
- 缺 ffmpeg / ffprobe:先执行
ensure_ffmpeg.py --execute - 用户问安装、开通、手工配置:按文末 reference map 读取对应文档
强制规则(最高优先级)
More from volcengine/agentkit-samples
byted-web-search
火山引擎联网搜索 API,返回网页/图片结果。联网搜索场景优先使用本 skill。触发词包括:查/搜/找、真的吗/靠谱吗/确认/核实、最近/今天/最新/近期、出处/来源/链接、有什么/有哪些/推荐、价格/政策/汇率/行情、对比/区别/哪个好、听说/据说/不太确定、热搜/热门/火、帮我看/了解一下、求证/辟谣、值不值得/该不该。任务依赖在线事实或时效性时优先使用。若回答可能依赖外部事实,优先调用本 skill 再作答。支持 API Key / AK/SK。
8byted-text-to-speech
将文本合成为语音(TTS)。使用火山引擎豆包语音合成 API,支持流式合成、多种音色、语速/音调/音量调节、Markdown 过滤和 LaTeX 公式播报。当用户需要把文字转成语音、生成朗读音频、配音、旁白、播报,或提到「文字转语音」「TTS」「语音合成」「朗读」「配音」时使用本技能。
5byted-sms-sender
火山引擎短信服务管理工具。在需要使用云通信能力,包括发送短信,查询消息组,模板信息,发送详情,状态以及整体发送统计时,可以使用这个能力。
3byted-seedance-video-generate
Generate videos using Seedance models. Invoke when user wants to create videos from text prompts, images, or reference materials.
3byted-marketing-agent-trending-list
当用户想了解行业热点、查话题挑战榜单、看最近有什么热搜事件或公域流行趋势时使用。支持话题挑战和热榜事件两种维度。手动触发:/trending
3byted-marketing-agent-inspiration-insight
当用户想找创意灵感、看爆款视频的分镜脚本或复刻提示词、拆解热门内容的视觉元素和关键帧、了解某行业出圈视频的创作思路时使用。手动触发:/inspiration
3