数据集简介
这是一个由Helsinki-NLP发布的科萨语(Xhosa)到纳瓦霍语(Navajo)的平行翻译数据集,属于OPUS多语言语料库项目的一部分。
主要用途
主要用于机器翻译任务,特别是针对科萨语和纳瓦霍语这两种资源相对稀缺的语言之间的翻译模型训练与研究。
数据类型与模态
- 模态类型:纯文本
- 数据格式:平行句对(源语言-目标语言对齐文本)
- 文件格式:Parquet
规模与统计
- 数据量:包含 49,982 条平行句对
- 下载量:44次
- 社区反馈:获得4次点赞
使用场景
- 低资源语言机器翻译:为科萨语和纳瓦霍语这两种使用人口相对较少的语言提供训练数据。
- 多语言NLP研究:可用于跨语言模型预训练、语言对齐研究等。
- 语言保护与数字化:有助于数字化保存和促进这两种语言的技术应用。
特点
- 开源可访问:非门控数据集,可公开下载使用
- 专注于低资源语言对的翻译资源
- 数据经过对齐处理,可直接用于训练翻译模型