tts-voice-synthesis
SKILL.md
TTS 语音合成服务
任务目标
- 本 Skill 用于:将文本转换为高质量语音,支持音色克隆、情感适配、流式生成和多语言支持
- 能力包含:
- 角色音色自动采集与克隆(从参考音频提取音色特征)
- 拟人化语义适配配音(根据文本情绪自动调整语音语调、语速、音调)
- 流式实时配音(支持边输入文本边生成语音)
- 多语言与方言支持(中文、英文及多种方言)
- 双模型选择(1.7B 高质量模型、0.6B 快速模型)
- 触发条件:当需要将文本转换为语音、克隆特定音色、生成情感化配音时使用
前置准备
- 模型下载:根据选择的 TTS 模型下载对应的权重,详见 references/model_config.md
- 硬件要求:
- GPU:推荐使用 8GB+ 显存的 GPU(0.6B 模型可在 CPU 上运行)
- 内存:建议 16GB+ 系统内存
- 磁盘空间:至少 10GB 可用空间(模型权重约 3-5GB)
- 依赖配置:确保已安装所需的 Python 依赖包