查看我们的 演示视频!
未见说话人少样本微调演示:
https://github.com/RVC-Boss/GPT-SoVITS/assets/129054828/05bee1fa-bdd8-4d85-9350-80c060ab47fb
GPT-SoVITS v2 ProPlus 的 RTF(推理速度):
在 4060Ti 上测试为 0.028,在 4090 上测试为 0.014(1400 词约等于 4 分钟,推理时间为 3.36 秒),在 M4 CPU 上为 0.526。你可以测试我们的 HuggingFace 演示(半块 H200)来体验高速推理。
请不要尬黑 GPT-SoVITS 推理速度慢,谢谢!
对于中国用户,可以点击此处使用 AutoDL 云 Docker 在线体验完整功能。
| Python 版本 | PyTorch 版本 | 设备 |
|---|---|---|
| Python 3.10 | PyTorch 2.5.1 | CUDA 12.4 |
| Python 3.11 | PyTorch 2.5.1 | CUDA 12.4 |
| Python 3.11 | PyTorch 2.7.0 | CUDA 12.8 |
| Python 3.9 | PyTorch 2.8.0dev | CUDA 12.8 |
| Python 3.9 | PyTorch 2.5.1 | Apple silicon |
| Python 3.11 | PyTorch 2.7.0 | Apple silicon |
| Python 3.9 | PyTorch 2.2.2 | CPU |
如果你是 Windows 用户(测试于 win>=10),可以下载集成包,然后双击 go-webui.bat 启动 GPT-SoVITS-WebUI。
中国用户可以在此处下载集成包。
通过运行以下命令安装程序:
conda create -n GPTSoVits python=3.10
conda activate GPTSoVits
pwsh -F install.ps1 --Device <CU126|CU128|CPU> --Source <HF|HF-Mirror|ModelScope> [--DownloadUVR5]
conda create -n GPTSoVits python=3.10
conda activate GPTSoVits
bash install.sh --device <CU126|CU128|ROCM|CPU> --source <HF|HF-Mirror|ModelScope> [--download-uvr5]
注意:在 Mac 上使用 GPU 训练的模型质量远低于其他设备训练的模型,因此我们暂时使用 CPU 代替。
通过运行以下命令安装程序:
conda create -n GPTSoVits python=3.10
conda activate GPTSoVits
bash install.sh --device <MPS|CPU> --source <HF|HF-Mirror|ModelScope> [--download-uvr5]
conda create -n GPTSoVits python=3.10
conda activate GPTSoVits
pip install -r extra-req.txt --no-deps
pip install -r requirements.txt
conda activate GPTSoVits
conda install ffmpeg
sudo apt install ffmpeg
sudo apt install libsox-dev
下载 ffmpeg.exe 和 ffprobe.exe 并放置于 GPT-SoVITS 根目录。
brew install ffmpeg
由于代码库发展迅速,而 Docker 镜像发布周期较慢,请:
Lite 表示 Docker 镜像不包含 ASR 模型和 UVR5 模型。你可以手动下载 UVR5 模型,而程序会根据需要自动下载 ASR 模型。is_half:控制是否启用半精度(fp16)。如果你的 GPU 支持,设置为 true 以减少内存使用。在 Windows(Docker Desktop)上,默认的共享内存大小较小,可能导致意外行为。请根据你的可用系统内存,在 Docker Compose 文件中增加 shm_size(例如增加到 16g)。
docker-compose.yaml 定义了两个服务:
GPT-SoVITS-CU126 和 GPT-SoVITS-CU128:包含所有功能的完整版本。GPT-SoVITS-CU126-Lite 和 GPT-SoVITS-CU128-Lite:依赖和功能减少的轻量级版本。要使用 Docker Compose 运行特定服务,请使用:
docker compose run --service-ports <GPT-SoVITS-CU126-Lite|GPT-SoVITS-CU128-Lite|GPT-SoVITS-CU126|GPT-SoVITS-CU128>
如果你想自己构建镜像,请使用:
bash docker_build.sh --cuda <12.6|12.8> [--lite]
一旦容器在后台运行,你可以使用以下命令访问它:
docker exec -it <GPT-SoVITS-CU126-Lite|GPT-SoVITS-CU128-Lite|GPT-SoVITS-CU126|GPT-SoVITS-CU128> bash
如果 install.sh 运行成功,你可以跳过第 1、2、3 步。
中国用户可以在此处下载所有这些模型。
从 GPT-SoVITS Models 下载预训练模型,并放置于 GPT_SoVITS/pretrained_models 目录下。
从 G2PWModel.zip(HF) | G2PWModel.zip(ModelScope) 下载 G2PW 模型,解压并重命名为 G2PWModel,然后放置于 GPT_SoVITS/text 目录下。(仅中文 TTS 需要)
对于 UVR5(人声/伴奏分离与去混响,额外功能),从 UVR5 Weights 下载模型,并放置于 tools/uvr5/uvr5_weights 目录下。
bs_roformer 或 mel_band_roformer 模型进行 UVR5,可以手动下载模型及对应的配置文件,并放入 tools/uvr5/uvr5_weights。重命名模型文件和配置文件,确保模型和配置文件除了后缀名外具有相同且对应的名称。此外,模型和配置文件的名称必须包含 roformer 才能被识别为 roformer 类模型。mel_mand_roformer、bs_roformer。如果未指定,将从配置文件中比较特征以确定它是哪种类型的模型。例如,模型 bs_roformer_ep_368_sdr_12.9628.ckpt 及其对应的配置文件 bs_roformer_ep_368_sdr_12.9628.yaml 是一对,kim_mel_band_roformer.ckpt 和 kim_mel_band_roformer.yaml 也是一对。对于中文 ASR(额外功能),从 Damo ASR Model、Damo VAD Model 和 Damo Punc Model 下载模型,并放置于 tools/asr/models 目录下。
对于英语或日语 ASR(额外功能),从 Faster Whisper Large V3 下载模型,并放置于 tools/asr/models 目录下。此外,其他模型 可能具有类似效果且磁盘占用更小。
TTS 标注 .list 文件格式:
vocal_path|speaker_name|language|text
语言字典:
zh: 中文ja: 日语en: 英语ko: 韩语yue: 粤语示例:
D:\GPT-SoVITS\xxx/xxx.wav|xxx|en|I like playing Genshin.
双击 go-webui.bat 或使用 go-webui.ps1。
如果想切换到 V1 版本,则双击 go-webui-v1.bat 或使用 go-webui-v1.ps1。
python webui.py <language(optional)>
如果想切换到 V1 版本,则:
python webui.py v1 <language(optional)>
或者在 WebUI 中手动切换版本。
双击 go-webui-v2.bat 或使用 go-webui-v2.ps1,然后在 1-GPT-SoVITS-TTS/1C-inference 打开推理 WebUI。
python GPT_SoVITS/inference_webui.py <language(optional)>
或者
python webui.py
然后在 1-GPT-SoVITS-TTS/1C-inference 打开推理 WebUI。
新特性:
从 v1 环境使用 v2:
pip install -r requirements.txt 更新部分包。GPT_SoVITS/pretrained_models/gsv-v2final-pretrained。