数据集简介
HiFiTTS-2 是由 NVIDIA 发布的一个大规模、高质量的文本转语音(TTS)数据集。它旨在为语音合成研究提供高质量的音频-文本配对数据。
主要用途
该数据集主要用于训练和评估高质量的文本转语音模型,特别是追求高保真度(Hi-Fi)语音合成的模型。
数据类型与模态
- 模态:表格数据(Tabular)与文本(Text)。
- 格式:数据以 JSON 格式存储。
- 内容:包含高质量的音频片段及其对应的转录文本。
规模与统计信息
- 数据量:包含超过 1650 万行数据条目,规模庞大。
- 下载量:已下载 666 次。
- 社区评价:获得 27 个点赞。
使用场景
- 训练前沿的神经文本转语音模型。
- 进行语音合成质量(自然度、清晰度)的基准测试与研究。
- 开发需要高质量语音数据的语音相关应用。