数据集简介
这是一个面向印度农村女性的博杰普尔语(Bhojpuri)语音数据集,由AI4Bharat组织发布。数据集旨在支持低资源语言的语音技术研究与应用。
主要用途
- 训练和评估博杰普尔语的自动语音识别(ASR)系统
- 支持面向农村女性群体的语音技术开发
- 促进印度低资源语言的语音AI研究
数据类型与模态
- 模态类型:音频 + 文本
- 数据格式:Parquet格式
- 内容构成:包含语音录音及其对应的文本转录
规模统计
- 总样本数:78,811条
- 下载量:192次
- 点赞数:5次
使用场景
- 语音识别模型训练
- 多语言语音技术研究
- 面向特定人口群体(农村女性)的AI应用开发
- 低资源语言语音数据集构建的参考案例