Svarah 数据集简介
概述
Svarah 是一个由 ai4bharat 发布的语音-文本数据集,主要用于语音识别和语音合成等相关任务。
主要用途
该数据集适用于训练和评估自动语音识别(ASR)系统、语音合成模型,以及进行语音-文本对齐等研究。
数据类型与模态
- 模态类型:音频、文本
- 数据格式:音频文件(具体格式未在元数据中明确,但可通过 Parquet 格式访问数据)与对应的文本转录。
规模与统计
- 数据条目:共 6,656 条样本。
- 存储格式:数据集以 Parquet 格式提供,便于高效处理和分析。
使用场景
- 语音识别模型开发:为印度语言(或其他相关语言)的 ASR 模型提供训练和测试数据。
- 语音技术研究:支持多模态学习、语音合成、语音翻译等前沿研究。
- 教育与基准测试:可作为学术研究或工业界评估语音处理系统性能的基准数据集。