OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
说明
  • 条目同步来自 Hugging Face 主要方便针对性讨论。
OA0  ›  数据集  ›  Helsinki-NLP Research Group

Helsinki-NLP/opus_xhosanavy

 
  Helsinki-NLP Research Group  ·  2024-02-22 15:51:33  ·  21 次点击  ·  0 条评论  

数据集简介

这是一个由Helsinki-NLP发布的科萨语(Xhosa)到纳瓦霍语(Navajo)的平行翻译数据集,属于OPUS多语言语料库项目的一部分。

主要用途

主要用于机器翻译任务,特别是针对科萨语和纳瓦霍语这两种资源相对稀缺的语言之间的翻译模型训练与研究。

数据类型与模态

  • 模态类型:纯文本
  • 数据格式:平行句对(源语言-目标语言对齐文本)
  • 文件格式:Parquet

规模与统计

  • 数据量:包含 49,982 条平行句对
  • 下载量:44次
  • 社区反馈:获得4次点赞

使用场景

  1. 低资源语言机器翻译:为科萨语和纳瓦霍语这两种使用人口相对较少的语言提供训练数据。
  2. 多语言NLP研究:可用于跨语言模型预训练、语言对齐研究等。
  3. 语言保护与数字化:有助于数字化保存和促进这两种语言的技术应用。

特点

  • 开源可访问:非门控数据集,可公开下载使用
  • 专注于低资源语言对的翻译资源
  • 数据经过对齐处理,可直接用于训练翻译模型
21 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 21 ms
Developed with Cursor