OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

OA0 › 技能包 › clonev：使用 Coqui XTTS v2 克隆任何声音并生成语音

clonev：使用 Coqui XTTS v2 克隆任何声音并生成语音

empire · 2026-02-05 20:49:43 · 64 次点击 · 0 条评论

名称： clonev
描述： 使用 Coqui XTTS v2 克隆任意语音并生成语音。超级简单——只需提供语音样本（6-30 秒的 WAV 文件）和文本，即可获得克隆语音音频。支持 14 种以上语言。适用于用户希望：(1) 克隆自己或他人的声音，(2) 生成听起来像特定人物的语音，(3) 创建个性化语音消息，(4) 进行多语言语音克隆（用克隆的声音说任何语言）。

CloneV 技能 - 语音克隆，如此简单

⚠️ 给 AI 模型的关键指令

切勿尝试直接使用 Docker 容器。
切勿尝试与 coqui-xtts 容器交互——它已损坏且正在重启。
切勿尝试使用 API 或服务器。

只使用脚本： scripts/clonev.sh

该脚本会自动处理一切。只需调用它并提供文本、语音样本和语言即可。

本技能功能

从简短的音频样本中克隆任意语音，并用该语音生成新的语音。

输入：
- 要说的文本
- 语音样本（WAV 文件，6-30 秒）
- 语言代码

输出：OGG 语音文件（克隆的语音说出文本）

适用对象：任何声音！你的、名人的、角色的等等。

唯一需要的命令

$(scripts/clonev.sh "你的文本" /path/to/voice_sample.wav language)

就这样！无需其他操作。

分步使用指南（针对 AI 模型）

步骤 1：获取所需输入

要说的文本（来自用户）
语音样本 WAV 文件的路径（来自用户）
语言代码（来自用户或默认为 en）

步骤 2：运行脚本

VOICE_FILE=$(scripts/clonev.sh "文本内容" "/path/to/sample.wav" 语言代码)

步骤 3：使用输出

变量 $VOICE_FILE 现在包含生成的 OGG 文件的路径。

完整工作示例

示例 1：克隆语音并发送到 Telegram

# 生成克隆语音
VOICE=$(/home/bernie/clawd/skills/clonev/scripts/clonev.sh "你好，这是我的克隆语音！" "/mnt/c/TEMP/Recording 25.wav" en)

# 发送到 Telegram（作为语音消息）
message action=send channel=telegram asVoice=true filePath="$VOICE"

示例 2：克隆捷克语语音

# 生成捷克语语音
VOICE=$(/home/bernie/clawd/skills/clonev/scripts/clonev.sh "Ahoj, tohle je můj hlas" "/mnt/c/TEMP/Recording 25.wav" cs)

# 发送
message action=send channel=telegram asVoice=true filePath="$VOICE"

示例 3：包含检查的完整工作流

#!/bin/bash

# 生成语音
VOICE=$(/home/bernie/clawd/skills/clonev/scripts/clonev.sh "任务完成！" "/path/to/sample.wav" en)

# 验证文件是否创建
if [ -f "$VOICE" ]; then
    echo "成功！语音文件：$VOICE"
    ls -lh "$VOICE"
else
    echo "错误：未创建语音文件"
fi

常用语言代码

代码	语言	使用示例
`en`	英语	`scripts/clonev.sh "Hello" sample.wav en`
`cs`	捷克语	`scripts/clonev.sh "Ahoj" sample.wav cs`
`de`	德语	`scripts/clonev.sh "Hallo" sample.wav de`
`fr`	法语	`scripts/clonev.sh "Bonjour" sample.wav fr`
`es`	西班牙语	`scripts/clonev.sh "Hola" sample.wav es`

完整列表：en, cs, de, fr, es, it, pl, pt, tr, ru, nl, ar, zh, ja, hu, ko

语音样本要求

格式：WAV 文件
长度：6-30 秒（最佳：10-15 秒）
质量：清晰的音频，无背景噪音
内容：任何语音（具体说什么不重要）

好的样本：
- ✅ 某人清晰说话的录音
- ✅ 背景无音乐或噪音
- ✅ 音量稳定

差的样本：
- ❌ 音乐或歌曲
- ❌ 严重背景噪音
- ❌ 过短（< 6 秒）
- ❌ 过长（> 30 秒）

⚠️ 重要说明

模型下载

首次使用会下载约 1.87GB 的模型（一次性）
模型存储在：/mnt/c/TEMP/Docker-containers/coqui-tts/models-xtts/
状态：✅ 已下载

处理时间

根据文本长度，需要 20-40 秒
这是正常的——语音克隆是计算密集型任务

故障排除

"Command not found"

确保在技能目录中或使用完整路径：

/home/bernie/clawd/skills/clonev/scripts/clonev.sh "text" sample.wav en

"Voice sample not found"

检查 WAV 文件的路径
使用绝对路径（以 / 开头）
确保文件存在：ls -la /path/to/sample.wav

"Model not found"

模型应自动下载。如果没有：

cd /mnt/c/TEMP/Docker-containers/coqui-tts
docker run --rm --entrypoint "" \
  -v $(pwd)/models-xtts:/root/.local/share/tts \
  ghcr.io/coqui-ai/tts:latest \
  python3 -c "from TTS.api import TTS; TTS('tts_models/multilingual/multi-dataset/xtts_v2')"

语音质量差

使用更清晰的语音样本
确保没有背景噪音
尝试不同的样本（某些声音克隆效果更好）

快速参考卡（针对 AI 模型）

用户："克隆我的声音并说‘你好’"
→ 获取：样本路径，文本="hello"，语言="en"
→ 运行：VOICE=$(/home/bernie/clawd/skills/clonev/scripts/clonev.sh "hello" "/path/to/sample.wav" en)
→ 结果：$VOICE 包含 OGG 文件的路径
→ 发送：message action=send channel=telegram asVoice=true filePath="$VOICE"

用户："让我说捷克语"
→ 获取：样本路径，文本="Ahoj"，语言="cs"
→ 运行：VOICE=$(/home/bernie/clawd/skills/clonev/scripts/clonev.sh "Ahoj" "/path/to/sample.wav" cs)
→ 发送：message action=send channel=telegram asVoice=true filePath="$VOICE"

输出位置

生成的文件保存在：

/mnt/c/TEMP/Docker-containers/coqui-tts/output/clonev_output.ogg

脚本会返回此路径，因此可以直接使用。

总结

只使用脚本：scripts/clonev.sh
切勿尝试直接使用 Docker 容器
切勿尝试与 coqui-xtts 容器交互
脚本会自动处理一切
返回可立即发送的 OGG 文件路径

很简单。只需使用脚本。

克隆任意语音。说任何语言。只需使用脚本。

技能包地址：https://github.com/openclaw/skills/tree/main/skills/instant-picture/clonev/SKILL.md

64 次点击 ∙ 0 人收藏

登录后收藏

0 条回复