skills/modelscope.cn/tts-voice-synthesis

tts-voice-synthesis

SKILL.md

TTS 语音合成服务

任务目标

  • 本 Skill 用于:将文本转换为高质量语音,支持音色克隆、情感适配、流式生成和多语言支持
  • 能力包含:
    • 角色音色自动采集与克隆(从参考音频提取音色特征)
    • 拟人化语义适配配音(根据文本情绪自动调整语音语调、语速、音调)
    • 流式实时配音(支持边输入文本边生成语音)
    • 多语言与方言支持(中文、英文及多种方言)
    • 双模型选择(1.7B 高质量模型、0.6B 快速模型)
  • 触发条件:当需要将文本转换为语音、克隆特定音色、生成情感化配音时使用

前置准备

  • 模型下载:根据选择的 TTS 模型下载对应的权重,详见 references/model_config.md
  • 硬件要求:
    • GPU:推荐使用 8GB+ 显存的 GPU(0.6B 模型可在 CPU 上运行)
    • 内存:建议 16GB+ 系统内存
    • 磁盘空间:至少 10GB 可用空间(模型权重约 3-5GB)
  • 依赖配置:确保已安装所需的 Python 依赖包
Installs
10
First Seen
Mar 19, 2026