OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
说明
  • 条目同步来自 Hugging Face 主要方便针对性讨论。
OA0  ›  数据集  ›  AI4Bharat

ai4bharat/wiki-translate

 
  AI4Bharat  ·  2024-06-24 14:05:25  ·  23 次点击  ·  0 条评论  

ai4bharat/wiki-translate 数据集简介

概述

这是一个由 AI4Bharat 组织创建的大规模机器翻译数据集,专门用于支持多语言翻译任务,特别是涉及印度语言与英语之间的翻译。

主要用途

  • 训练和评估机器翻译模型
  • 支持多语言自然语言处理研究
  • 促进印度语言与英语之间的互译技术发展

数据类型与模态

  • 模态类型:纯文本(text)
  • 数据格式:Parquet 格式
  • 主要内容:平行语料(源语言与目标语言对照的翻译句子对)

规模与统计

  • 数据量:约 570 万行(570 万对翻译句子)
  • 下载量:572 次
  • 社区反馈:7 个点赞

使用场景

  • 学术研究:用于多语言机器翻译模型的训练与基准测试
  • 技术开发:构建支持印度语言的翻译工具或应用
  • 语言资源:为低资源语言提供高质量的翻译语料

特点

  • 专注于印度语言与英语的翻译
  • 数据规模较大,适合训练深度学习模型
  • 开源可公开访问,无需特殊权限
23 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 26 ms
Developed with Cursor