ai4bharat/wiki-translate 数据集简介
概述
这是一个由 AI4Bharat 组织创建的大规模机器翻译数据集,专门用于支持多语言翻译任务,特别是涉及印度语言与英语之间的翻译。
主要用途
- 训练和评估机器翻译模型
- 支持多语言自然语言处理研究
- 促进印度语言与英语之间的互译技术发展
数据类型与模态
- 模态类型:纯文本(text)
- 数据格式:Parquet 格式
- 主要内容:平行语料(源语言与目标语言对照的翻译句子对)
规模与统计
- 数据量:约 570 万行(570 万对翻译句子)
- 下载量:572 次
- 社区反馈:7 个点赞
使用场景
- 学术研究:用于多语言机器翻译模型的训练与基准测试
- 技术开发:构建支持印度语言的翻译工具或应用
- 语言资源:为低资源语言提供高质量的翻译语料
特点
- 专注于印度语言与英语的翻译
- 数据规模较大,适合训练深度学习模型
- 开源可公开访问,无需特殊权限