正如我们在论文和项目网站中详述的,OpenVoice 的优势主要体现在三个方面:
1. 精准的音色克隆。
OpenVoice 能够精确克隆参考音色,并生成多种语言和口音的语音。
2. 灵活的语音风格控制。
OpenVoice 支持对语音风格进行细粒度控制,例如情感和口音,以及其他风格参数,包括节奏、停顿和语调。
3. 零样本跨语言语音克隆。
生成语音的语言和参考语音的语言,均无需出现在大规模说话人多语言训练数据集中。
2024年4月,我们发布了 OpenVoice V2。它包含了 V1 的所有功能,并具备以下特点:
1. 更好的音频质量。
OpenVoice V2 采用了不同的训练策略,提供了更优的音频质量。
2. 原生多语言支持。
OpenVoice V2 原生支持英语、西班牙语、法语、中文、日语和韩语。
3. 免费商用。
自 2024 年 4 月起,V2 和 V1 版本均在 MIT 许可证下发布,可免费用于商业用途。
自 2023 年 5 月起,OpenVoice 一直为 myshell.ai 的即时语音克隆功能提供支持。截至 2023 年 11 月,该语音克隆模型已被全球用户使用了数千万次,并见证了平台用户的爆炸式增长。
请参阅使用指南获取详细说明。
请参阅问答了解常见问题与解答。我们将定期更新问题与答案列表。
@article{qin2023openvoice,
title={OpenVoice: Versatile Instant Voice Cloning},
author={Qin, Zengyi and Zhao, Wenliang and Yu, Xumin and Sun, Xin},
journal={arXiv preprint arXiv:2312.01479},
year={2023}
}
OpenVoice V1 和 V2 均采用 MIT 许可证。可免费用于商业和研究用途。