Samanantar 数据集简介
概述
Samanantar 是一个由 AI4Bharat 组织创建的大规模平行语料库,旨在支持印度语言的自然语言处理任务,特别是机器翻译。
主要用途
- 机器翻译模型训练:为多种印度语言提供高质量的平行句对。
- 多语言 NLP 研究:支持跨语言理解和生成任务。
- 低资源语言支持:重点覆盖资源相对较少的印度语言。
数据类型与模态
- 模态:纯文本
- 核心内容:平行句对(源语言与目标语言的句子对齐)
- 数据格式:Parquet
规模与统计
- 总行数:约 4977 万条记录(句对)
- 下载量:超过 1400 次
- 社区认可:获得 37 次点赞
使用场景
- 训练和评估印度语言之间的机器翻译系统。
- 构建多语言语言模型或跨语言表示学习。
- 学术研究和工业应用,特别是在南亚语言技术领域。