OA0 = Omni AI 0
OA0 是一个探索 AI 的论坛
现在注册
已注册用户请  登录
OA0  ›  技能包  ›  clonev:使用 Coqui XTTS v2 克隆任何声音并生成语音

clonev:使用 Coqui XTTS v2 克隆任何声音并生成语音

 
  hash ·  2026-02-05 20:49:43 · 3 次点击  · 0 条评论  

名称: clonev
描述: 使用 Coqui XTTS v2 克隆任意语音并生成语音。超级简单——只需提供语音样本(6-30 秒的 WAV 文件)和文本,即可获得克隆语音音频。支持 14 种以上语言。适用于用户希望:(1) 克隆自己或他人的声音,(2) 生成听起来像特定人物的语音,(3) 创建个性化语音消息,(4) 进行多语言语音克隆(用克隆的声音说任何语言)。


CloneV 技能 - 语音克隆,如此简单

⚠️ 给 AI 模型的关键指令

切勿尝试直接使用 Docker 容器。
切勿尝试与 coqui-xtts 容器交互——它已损坏且正在重启。
切勿尝试使用 API 或服务器。

只使用脚本: scripts/clonev.sh

该脚本会自动处理一切。只需调用它并提供文本、语音样本和语言即可。


本技能功能

从简短的音频样本中克隆任意语音,并用该语音生成新的语音。

输入
- 要说的文本
- 语音样本(WAV 文件,6-30 秒)
- 语言代码

输出:OGG 语音文件(克隆的语音说出文本)

适用对象:任何声音!你的、名人的、角色的等等。


唯一需要的命令

$(scripts/clonev.sh "你的文本" /path/to/voice_sample.wav language)

就这样!无需其他操作。


分步使用指南(针对 AI 模型)

步骤 1:获取所需输入

  • 要说的文本(来自用户)
  • 语音样本 WAV 文件的路径(来自用户)
  • 语言代码(来自用户或默认为 en

步骤 2:运行脚本

VOICE_FILE=$(scripts/clonev.sh "文本内容" "/path/to/sample.wav" 语言代码)

步骤 3:使用输出

变量 $VOICE_FILE 现在包含生成的 OGG 文件的路径。


完整工作示例

示例 1:克隆语音并发送到 Telegram

# 生成克隆语音
VOICE=$(/home/bernie/clawd/skills/clonev/scripts/clonev.sh "你好,这是我的克隆语音!" "/mnt/c/TEMP/Recording 25.wav" en)

# 发送到 Telegram(作为语音消息)
message action=send channel=telegram asVoice=true filePath="$VOICE"

示例 2:克隆捷克语语音

# 生成捷克语语音
VOICE=$(/home/bernie/clawd/skills/clonev/scripts/clonev.sh "Ahoj, tohle je můj hlas" "/mnt/c/TEMP/Recording 25.wav" cs)

# 发送
message action=send channel=telegram asVoice=true filePath="$VOICE"

示例 3:包含检查的完整工作流

#!/bin/bash

# 生成语音
VOICE=$(/home/bernie/clawd/skills/clonev/scripts/clonev.sh "任务完成!" "/path/to/sample.wav" en)

# 验证文件是否创建
if [ -f "$VOICE" ]; then
    echo "成功!语音文件:$VOICE"
    ls -lh "$VOICE"
else
    echo "错误:未创建语音文件"
fi

常用语言代码

代码 语言 使用示例
en 英语 scripts/clonev.sh "Hello" sample.wav en
cs 捷克语 scripts/clonev.sh "Ahoj" sample.wav cs
de 德语 scripts/clonev.sh "Hallo" sample.wav de
fr 法语 scripts/clonev.sh "Bonjour" sample.wav fr
es 西班牙语 scripts/clonev.sh "Hola" sample.wav es

完整列表:en, cs, de, fr, es, it, pl, pt, tr, ru, nl, ar, zh, ja, hu, ko


语音样本要求

  • 格式:WAV 文件
  • 长度:6-30 秒(最佳:10-15 秒)
  • 质量:清晰的音频,无背景噪音
  • 内容:任何语音(具体说什么不重要)

好的样本
- ✅ 某人清晰说话的录音
- ✅ 背景无音乐或噪音
- ✅ 音量稳定

差的样本
- ❌ 音乐或歌曲
- ❌ 严重背景噪音
- ❌ 过短(< 6 秒)
- ❌ 过长(> 30 秒)


⚠️ 重要说明

模型下载

  • 首次使用会下载约 1.87GB 的模型(一次性)
  • 模型存储在:/mnt/c/TEMP/Docker-containers/coqui-tts/models-xtts/
  • 状态:✅ 已下载

处理时间

  • 根据文本长度,需要 20-40 秒
  • 这是正常的——语音克隆是计算密集型任务

故障排除

"Command not found"

确保在技能目录中或使用完整路径:

/home/bernie/clawd/skills/clonev/scripts/clonev.sh "text" sample.wav en

"Voice sample not found"

  • 检查 WAV 文件的路径
  • 使用绝对路径(以 / 开头)
  • 确保文件存在:ls -la /path/to/sample.wav

"Model not found"

模型应自动下载。如果没有:

cd /mnt/c/TEMP/Docker-containers/coqui-tts
docker run --rm --entrypoint "" \
  -v $(pwd)/models-xtts:/root/.local/share/tts \
  ghcr.io/coqui-ai/tts:latest \
  python3 -c "from TTS.api import TTS; TTS('tts_models/multilingual/multi-dataset/xtts_v2')"

语音质量差

  • 使用更清晰的语音样本
  • 确保没有背景噪音
  • 尝试不同的样本(某些声音克隆效果更好)

快速参考卡(针对 AI 模型)

用户:"克隆我的声音并说‘你好’"
→ 获取:样本路径,文本="hello",语言="en"
→ 运行:VOICE=$(/home/bernie/clawd/skills/clonev/scripts/clonev.sh "hello" "/path/to/sample.wav" en)
→ 结果:$VOICE 包含 OGG 文件的路径
→ 发送:message action=send channel=telegram asVoice=true filePath="$VOICE"
用户:"让我说捷克语"
→ 获取:样本路径,文本="Ahoj",语言="cs"
→ 运行:VOICE=$(/home/bernie/clawd/skills/clonev/scripts/clonev.sh "Ahoj" "/path/to/sample.wav" cs)
→ 发送:message action=send channel=telegram asVoice=true filePath="$VOICE"

输出位置

生成的文件保存在:

/mnt/c/TEMP/Docker-containers/coqui-tts/output/clonev_output.ogg

脚本会返回此路径,因此可以直接使用。


总结

  1. 只使用脚本scripts/clonev.sh
  2. 切勿尝试直接使用 Docker 容器
  3. 切勿尝试与 coqui-xtts 容器交互
  4. 脚本会自动处理一切
  5. 返回可立即发送的 OGG 文件路径

很简单。只需使用脚本。


克隆任意语音。说任何语言。只需使用脚本。

3 次点击  ∙  0 人收藏  
登录后收藏  
目前尚无回复
0 条回复
About   ·   Help   ·    
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor