OA0 = Omni AI 0
OA0 是一个探索 AI 的论坛
现在注册
已注册用户请  登录
OA0  ›  代码  ›  GPT-SoVITS — 强大的少样本语音转换与 TTS

GPT-SoVITS — 强大的少样本语音转换与 TTS

 
  cache ·  2026-02-28 12:15:00 · 191 次点击  · 0 条评论  

GPT-SoVITS-WebUI

一个强大的少样本语音转换与文本转语音 WebUI。

[![madewithlove](https://img.shields.io/badge/made_with-%E2%9D%A4-red?style=for-the-badge&labelColor=orange)](https://github.com/RVC-Boss/GPT-SoVITS) RVC-Boss%2FGPT-SoVITS | Trendshift [![Python](https://img.shields.io/badge/python-3.10--3.12-blue?style=for-the-badge&logo=python)](https://www.python.org) [![GitHub release](https://img.shields.io/github/v/release/RVC-Boss/gpt-sovits?style=for-the-badge&logo=github)](https://github.com/RVC-Boss/gpt-sovits/releases) [![Train In Colab](https://img.shields.io/badge/Colab-Training-F9AB00?style=for-the-badge&logo=googlecolab)](https://colab.research.google.com/github/RVC-Boss/GPT-SoVITS/blob/main/Colab-WebUI.ipynb) [![Huggingface](https://img.shields.io/badge/免费在线体验-free_online_demo-yellow.svg?style=for-the-badge&logo=huggingface)](https://lj1995-gpt-sovits-proplus.hf.space/) [![Image Size](https://img.shields.io/docker/image-size/xxxxrt666/gpt-sovits/latest?style=for-the-badge&logo=docker)](https://hub.docker.com/r/xxxxrt666/gpt-sovits) [![简体中文](https://img.shields.io/badge/简体中文-阅读文档-blue?style=for-the-badge&logo=googledocs&logoColor=white)](https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e) [![English](https://img.shields.io/badge/English-Read%20Docs-blue?style=for-the-badge&logo=googledocs&logoColor=white)](https://rentry.co/GPT-SoVITS-guide#/) [![Change Log](https://img.shields.io/badge/Change%20Log-View%20Updates-blue?style=for-the-badge&logo=googledocs&logoColor=white)](https://github.com/RVC-Boss/GPT-SoVITS/blob/main/docs/en/Changelog_EN.md) [![License](https://img.shields.io/badge/LICENSE-MIT-green.svg?style=for-the-badge&logo=opensourceinitiative)](https://github.com/RVC-Boss/GPT-SoVITS/blob/main/LICENSE) **English** | [**中文简体**](./docs/cn/README.md) | [**日本語**](./docs/ja/README.md) | [**한국어**](./docs/ko/README.md) | [**Türkçe**](./docs/tr/README.md)

特性

  1. 零样本 TTS: 输入一段 5 秒的语音样本,即可体验即时文本转语音。
  2. 少样本 TTS: 仅需 1 分钟的微调训练数据,即可提升音色相似度和真实感。
  3. 跨语言支持: 支持推理与训练数据集不同的语言,目前支持英语、日语、韩语、粤语和中文。
  4. WebUI 工具: 集成工具包括人声伴奏分离、自动训练集切割、中文 ASR 和文本标注,辅助初学者创建训练数据集和 GPT/SoVITS 模型。

查看我们的 演示视频

未见说话人少样本微调演示:

https://github.com/RVC-Boss/GPT-SoVITS/assets/129054828/05bee1fa-bdd8-4d85-9350-80c060ab47fb

GPT-SoVITS v2 ProPlus 的 RTF(推理速度):
在 4060Ti 上测试为 0.028,在 4090 上测试为 0.014(1400 词约等于 4 分钟,推理时间为 3.36 秒),在 M4 CPU 上为 0.526。你可以测试我们的 HuggingFace 演示(半块 H200)来体验高速推理。

请不要尬黑 GPT-SoVITS 推理速度慢,谢谢!

用户指南:简体中文 | English

安装

对于中国用户,可以点击此处使用 AutoDL 云 Docker 在线体验完整功能。

测试环境

Python 版本 PyTorch 版本 设备
Python 3.10 PyTorch 2.5.1 CUDA 12.4
Python 3.11 PyTorch 2.5.1 CUDA 12.4
Python 3.11 PyTorch 2.7.0 CUDA 12.8
Python 3.9 PyTorch 2.8.0dev CUDA 12.8
Python 3.9 PyTorch 2.5.1 Apple silicon
Python 3.11 PyTorch 2.7.0 Apple silicon
Python 3.9 PyTorch 2.2.2 CPU

Windows

如果你是 Windows 用户(测试于 win>=10),可以下载集成包,然后双击 go-webui.bat 启动 GPT-SoVITS-WebUI。

中国用户可以在此处下载集成包

通过运行以下命令安装程序:

conda create -n GPTSoVits python=3.10
conda activate GPTSoVits
pwsh -F install.ps1 --Device <CU126|CU128|CPU> --Source <HF|HF-Mirror|ModelScope> [--DownloadUVR5]

Linux

conda create -n GPTSoVits python=3.10
conda activate GPTSoVits
bash install.sh --device <CU126|CU128|ROCM|CPU> --source <HF|HF-Mirror|ModelScope> [--download-uvr5]

macOS

注意:在 Mac 上使用 GPU 训练的模型质量远低于其他设备训练的模型,因此我们暂时使用 CPU 代替。

通过运行以下命令安装程序:

conda create -n GPTSoVits python=3.10
conda activate GPTSoVits
bash install.sh --device <MPS|CPU> --source <HF|HF-Mirror|ModelScope> [--download-uvr5]

手动安装

安装依赖

conda create -n GPTSoVits python=3.10
conda activate GPTSoVits

pip install -r extra-req.txt --no-deps
pip install -r requirements.txt

安装 FFmpeg

Conda 用户
conda activate GPTSoVits
conda install ffmpeg
Ubuntu/Debian 用户
sudo apt install ffmpeg
sudo apt install libsox-dev
Windows 用户

下载 ffmpeg.exeffprobe.exe 并放置于 GPT-SoVITS 根目录。

安装 Visual Studio 2017

macOS 用户
brew install ffmpeg

使用 Docker 运行 GPT-SoVITS

Docker 镜像选择

由于代码库发展迅速,而 Docker 镜像发布周期较慢,请:

  • 查看 Docker Hub 获取最新的可用镜像标签。
  • 为你的环境选择合适的镜像标签。
  • Lite 表示 Docker 镜像不包含 ASR 模型和 UVR5 模型。你可以手动下载 UVR5 模型,而程序会根据需要自动下载 ASR 模型。
  • Docker Compose 会自动拉取合适的架构镜像(amd64/arm64)。
  • Docker Compose 会挂载当前目录下的所有文件。请在使用 Docker 镜像前切换到项目根目录并拉取最新代码
  • 可选地,使用提供的 Dockerfile 本地构建镜像以获取最新的更改。

环境变量

  • is_half:控制是否启用半精度(fp16)。如果你的 GPU 支持,设置为 true 以减少内存使用。

共享内存配置

在 Windows(Docker Desktop)上,默认的共享内存大小较小,可能导致意外行为。请根据你的可用系统内存,在 Docker Compose 文件中增加 shm_size(例如增加到 16g)。

选择服务

docker-compose.yaml 定义了两个服务:

  • GPT-SoVITS-CU126GPT-SoVITS-CU128:包含所有功能的完整版本。
  • GPT-SoVITS-CU126-LiteGPT-SoVITS-CU128-Lite:依赖和功能减少的轻量级版本。

要使用 Docker Compose 运行特定服务,请使用:

docker compose run --service-ports <GPT-SoVITS-CU126-Lite|GPT-SoVITS-CU128-Lite|GPT-SoVITS-CU126|GPT-SoVITS-CU128>

本地构建 Docker 镜像

如果你想自己构建镜像,请使用:

bash docker_build.sh --cuda <12.6|12.8> [--lite]

访问运行中的容器(Bash Shell)

一旦容器在后台运行,你可以使用以下命令访问它:

docker exec -it <GPT-SoVITS-CU126-Lite|GPT-SoVITS-CU128-Lite|GPT-SoVITS-CU126|GPT-SoVITS-CU128> bash

预训练模型

如果 install.sh 运行成功,你可以跳过第 1、2、3 步。

中国用户可以在此处下载所有这些模型

  1. GPT-SoVITS Models 下载预训练模型,并放置于 GPT_SoVITS/pretrained_models 目录下。

  2. G2PWModel.zip(HF) | G2PWModel.zip(ModelScope) 下载 G2PW 模型,解压并重命名为 G2PWModel,然后放置于 GPT_SoVITS/text 目录下。(仅中文 TTS 需要)

  3. 对于 UVR5(人声/伴奏分离与去混响,额外功能),从 UVR5 Weights 下载模型,并放置于 tools/uvr5/uvr5_weights 目录下。

    • 如果你想使用 bs_roformermel_band_roformer 模型进行 UVR5,可以手动下载模型及对应的配置文件,并放入 tools/uvr5/uvr5_weights重命名模型文件和配置文件,确保模型和配置文件除了后缀名外具有相同且对应的名称。此外,模型和配置文件的名称必须包含 roformer 才能被识别为 roformer 类模型。
    • 建议在模型名和配置文件名中直接指定模型类型,例如 mel_mand_roformerbs_roformer。如果未指定,将从配置文件中比较特征以确定它是哪种类型的模型。例如,模型 bs_roformer_ep_368_sdr_12.9628.ckpt 及其对应的配置文件 bs_roformer_ep_368_sdr_12.9628.yaml 是一对,kim_mel_band_roformer.ckptkim_mel_band_roformer.yaml 也是一对。
  4. 对于中文 ASR(额外功能),从 Damo ASR ModelDamo VAD ModelDamo Punc Model 下载模型,并放置于 tools/asr/models 目录下。

  5. 对于英语或日语 ASR(额外功能),从 Faster Whisper Large V3 下载模型,并放置于 tools/asr/models 目录下。此外,其他模型 可能具有类似效果且磁盘占用更小。

数据集格式

TTS 标注 .list 文件格式:

vocal_path|speaker_name|language|text

语言字典:

  • zh: 中文
  • ja: 日语
  • en: 英语
  • ko: 韩语
  • yue: 粤语

示例:

D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.

微调与推理

打开 WebUI

集成包用户

双击 go-webui.bat 或使用 go-webui.ps1
如果想切换到 V1 版本,则双击 go-webui-v1.bat 或使用 go-webui-v1.ps1

其他用户

python webui.py <language(optional)>

如果想切换到 V1 版本,则:

python webui.py v1 <language(optional)>

或者在 WebUI 中手动切换版本。

微调

现已支持路径自动填充

  1. 填写音频路径。
  2. 将音频切割成小片段。
  3. 降噪(可选)。
  4. ASR 识别。
  5. 校对 ASR 转录文本。
  6. 转到下一个标签页,然后微调模型。

打开推理 WebUI

集成包用户

双击 go-webui-v2.bat 或使用 go-webui-v2.ps1,然后在 1-GPT-SoVITS-TTS/1C-inference 打开推理 WebUI。

其他用户

python GPT_SoVITS/inference_webui.py <language(optional)>

或者

python webui.py

然后在 1-GPT-SoVITS-TTS/1C-inference 打开推理 WebUI。

V2 版本说明

新特性:

  1. 支持韩语和粤语。
  2. 优化的文本前端。
  3. 预训练模型从 2k 小时扩展到 5k 小时。
  4. 针对低质量参考音频的合成质量改进。
    更多详情

从 v1 环境使用 v2:

  1. pip install -r requirements.txt 更新部分包。
  2. 从 GitHub 克隆最新代码。
  3. huggingface 下载 v2 预训练模型,并放入 GPT_SoVITS/pretrained_models/gsv-v2final-pretrained
    中文 v2 额外步骤:[G2PWModel.zip(HF)](https://huggingface.co/XXXXRT/GPT-SoVITS-Pretrained/resolve/main/G2
191 次点击  ∙  0 人收藏  
登录后收藏  
目前尚无回复
0 条回复
About   ·   Help   ·    
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor