[!IMPORTANT]
许可证声明
本代码库基于 Apache 许可证 发布,所有模型权重基于 CC-BY-NC-SA-4.0 许可证 发布。详情请参阅 LICENSE。[!WARNING]
法律免责声明
我们对任何非法使用本代码库的行为不承担任何责任。请参考您当地关于 DMCA 及其他相关法律的规定。
真正类人的文本转语音与语音克隆
FishAudio-S1 是由 Fish Audio 开发的一款富有表现力的文本转语音(TTS)和语音克隆模型,旨在生成听起来自然、真实且情感丰富的语音——而非机械、平淡或局限于演播室风格的叙述。
FishAudio-S1 专注于人类真实的说话方式:带有情感、变化、停顿和意图。
我们很高兴地宣布,我们已经更名为 Fish Audio —— 推出了一系列革命性的先进文本转语音模型,这些模型建立在 Fish-Speech 的基础之上。
我们自豪地发布 FishAudio-S1(也称为 OpenAudio S1)作为该系列的首个模型,在质量、性能和功能方面带来了显著提升。
FishAudio-S1 提供两个版本:FishAudio-S1 和 FishAudio-S1-mini。两个模型现已在 Fish Audio Playground(针对 FishAudio-S1)和 Hugging Face(针对 FishAudio-S1-mini)上提供。
访问 Fish Audio 网站 获取实时演示和技术报告。
| 模型 | 大小 | 可用性 | 描述 |
|---|---|---|---|
| FishAudio-S1 | 40亿参数 | fish.audio | 功能全面的旗舰模型,具有最高的质量和稳定性 |
| FishAudio-S1-mini | 5亿参数 | huggingface | 开源的蒸馏模型,具备核心能力 |
S1 和 S1-mini 都采用了在线的人类反馈强化学习(RLHF)。
以下是 Fish Speech 的官方文档,按照说明即可轻松上手。
我们使用 Seed TTS 评估指标来评估模型性能,结果显示 FishAudio S1 在英文文本上实现了 0.008 的 WER 和 0.004 的 CER,显著优于之前的模型。(英文,自动评估,基于 OpenAI gpt-4o-transcribe,说话人距离使用 Revai/pyannote-wespeaker-voxceleb-resnet34-LM)
| 模型 | 词错误率 (WER) | 字符错误率 (CER) | 说话人距离 |
|---|---|---|---|
| S1 | 0.008 | 0.004 | 0.332 |
| S1-mini | 0.011 | 0.005 | 0.380 |
FishAudio S1 在文本转语音评估基准 TTS-Arena2 上取得了 第一名 的排名:
FishAudio-S1 生成的语音听起来自然而富有对话感,而非机械或过度修饰。该模型捕捉了时间、重音和韵律上的细微变化,避免了传统 TTS 系统中常见的“演播室录音”效果。
FishAudio S1 是首个支持通过显式情感和语调标记进行开放领域细粒度情感控制的 TTS 模型。我们现在可以精确地引导语音听起来如何:
(angry) (sad) (excited) (surprised) (satisfied) (delighted)
(scared) (worried) (upset) (nervous) (frustrated) (depressed)
(empathetic) (embarrassed) (disgusted) (moved) (proud) (relaxed)
(grateful) (confident) (interested) (curious) (confused) (joyful)
(disdainful) (unhappy) (anxious) (hysterical) (indifferent)
(impatient) (guilty) (scornful) (panicked) (furious) (reluctant)
(keen) (disapproving) (negative) (denying) (astonished) (serious)
(sarcastic) (conciliative) (comforting) (sincere) (sneering)
(hesitating) (yielding) (painful) (awkward) (amused)
(in a hurry tone) (shouting) (screaming) (whispering) (soft tone)
(laughing) (chuckling) (sobbing) (crying loudly) (sighing) (panting)
(groaning) (crowd laughing) (background laughter) (audience laughing)
你也可以使用 Ha,ha,ha 来控制,还有许多其他用法等待你自己探索。
FishAudio-S1 支持高质量的多语言文本转语音,无需音素或特定语言的预处理。
支持情感标记的语言包括:
英语、中文、日语、德语、法语、西班牙语、韩语、阿拉伯语、俄语、荷兰语、意大利语、波兰语和葡萄牙语。
该列表正在不断扩展,请查看 Fish Audio 获取最新发布。
FishAudio-S1 支持使用短参考样本(通常 10-30 秒)进行精确的语音克隆。该模型捕捉音色、说话风格和情感倾向,无需额外微调即可生成逼真且一致的克隆语音。
零样本与少样本 TTS: 输入 10 到 30 秒的语音样本即可生成高质量的 TTS 输出。详细指南请参阅 语音克隆最佳实践。
多语言与跨语言支持: 只需将多语言文本复制粘贴到输入框——无需担心语言问题。目前支持英语、日语、韩语、中文、法语、德语、阿拉伯语和西班牙语。
不依赖音素: 模型具有很强的泛化能力,不依赖音素进行 TTS。它可以处理任何语言脚本的文本。
高度准确: 在 Seed-TTS 评估中,字符错误率(CER)约为 0.4%,词错误率(WER)约为 0.8%。
快速: 通过 torch compile 加速,在 Nvidia RTX 4090 GPU 上的实时因子约为 1:7。
WebUI 推理: 提供易于使用的、基于 Gradio 的 Web 界面,兼容 Chrome、Firefox、Edge 等浏览器。
易于部署: 轻松设置推理服务器,原生支持 Linux 和 Windows(macOS 支持即将推出),性能损失最小。
@misc{fish-speech-v1.4,
title={Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis},
author={Shijia Liao and Yuxuan Wang and Tianyu Li and Yifan Cheng and Ruoyi Zhang and Rongzhi Zhou and Yijin Xing},
year={2024},
eprint={2411.01156},
archivePrefix={arXiv},
primaryClass={cs.SD},
url={https://arxiv.org/abs/2411.01156},
}