chichi-speech：基于 Qwen3 的高质量文本转语音 RESTful 服务

fiber · 2026-02-05 20:40:03 · 51 次点击 · 0 条评论

名称： chichi-speech
描述： 基于 Qwen3 的高质量文本转语音 RESTful 服务，支持专用语音克隆。通过复用特定语音提示进行优化，避免重复计算。

Chichi 语音服务

本技能提供一个基于 FastAPI 的 REST 服务，用于 Qwen3 文本转语音，特别配置为复用高质量参考音频提示，以实现高效且一致的语音克隆。该服务打包为可安装的 CLI 工具。

安装

前提条件：python >= 3.10。

pip install -e .

使用方法

1. 启动服务

服务默认运行在 9090 端口。

# 启动服务器（默认前台运行，可使用 & 在后台运行或另开终端）
# 可选：更新为您自己的参考音频和文本以进行语音克隆
chichi-speech --port 9090 --host 127.0.0.1 --ref-audio "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen3-TTS-Repo/clone_2.wav" --ref-text "Okay. Yeah. I resent you. I love you. I respect you. But you know what? You blew it! And thanks to you."

2. 验证服务运行状态

检查健康状态/文档：

curl http://localhost:9090/docs

3. 生成语音

使用 cURL：

curl -X POST "http://localhost:9090/synthesize" \
     -H "Content-Type: application/json" \
     -d '{
           "text": "Nice to meet you",
           "language": "English"
         }' \
     --output output/nice_to_meet.wav

功能特性

端点：POST /synthesize
默认端口：9090
语音克隆：使用来自参考文件的预计算语音提示，确保克隆的语音一致且生成速度快。

环境要求

Python 3.10+
qwen-tts（Qwen3 模型库）
能够访问用于语音克隆的参考音频文件。
- 默认使用 Qwen3 的公共示例音频。
- 重要提示：您可以使用 --ref-audio 和 --ref-text 参数提供自己的参考音频。

技能包地址：https://github.com/openclaw/skills/tree/main/skills/hudeven/chichi-speech/SKILL.md

51 次点击 ∙ 0 人收藏

登录后收藏

0 条回复