OpenVoice — 即时语音克隆与多语言语音生成项目

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

[论文](https://arxiv.org/abs/2312.01479) | [项目网站](https://research.myshell.ai/open-voice)

简介

OpenVoice V1

正如我们在论文和项目网站中详述的，OpenVoice 的优势主要体现在三个方面：

1. 精准的音色克隆。
OpenVoice 能够精确克隆参考音色，并生成多种语言和口音的语音。

2. 灵活的语音风格控制。
OpenVoice 支持对语音风格进行细粒度控制，例如情感和口音，以及其他风格参数，包括节奏、停顿和语调。

3. 零样本跨语言语音克隆。
生成语音的语言和参考语音的语言，均无需出现在大规模说话人多语言训练数据集中。

OpenVoice V2

2024年4月，我们发布了 OpenVoice V2。它包含了 V1 的所有功能，并具备以下特点：

1. 更好的音频质量。
OpenVoice V2 采用了不同的训练策略，提供了更优的音频质量。

2. 原生多语言支持。
OpenVoice V2 原生支持英语、西班牙语、法语、中文、日语和韩语。

3. 免费商用。
自 2024 年 4 月起，V2 和 V1 版本均在 MIT 许可证下发布，可免费用于商业用途。

演示视频

自 2023 年 5 月起，OpenVoice 一直为 myshell.ai 的即时语音克隆功能提供支持。截至 2023 年 11 月，该语音克隆模型已被全球用户使用了数千万次，并见证了平台用户的爆炸式增长。

主要贡献者

秦增益 - 麻省理工学院
赵文亮 - 清华大学
于旭敏 - 清华大学
孙逸凡 - MyShell

如何使用

请参阅使用指南获取详细说明。

常见问题

请参阅问答了解常见问题与解答。我们将定期更新问题与答案列表。

引用

@article{qin2023openvoice,
  title={OpenVoice: Versatile Instant Voice Cloning},
  author={Qin, Zengyi and Zhao, Wenliang and Yu, Xumin and Sun, Xin},
  journal={arXiv preprint arXiv:2312.01479},
  year={2023}
}

许可证

OpenVoice V1 和 V2 均采用 MIT 许可证。可免费用于商业和研究用途。

致谢

本实现基于几个优秀的项目：TTS、VITS 和 VITS2。感谢他们的杰出工作！

项目地址：https://github.com/myshell-ai/OpenVoice

70 次点击 ∙ 0 人收藏

登录后收藏

0 条回复