OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
说明
  • 条目同步来自 Hugging Face 主要方便针对性讨论。
OA0  ›  数据集  ›  AI4Bharat

ai4bharat/samanantar

 
  AI4Bharat  ·  2024-12-24 08:13:04  ·  28 次点击  ·  0 条评论  

Samanantar 数据集简介

概述

Samanantar 是一个由 AI4Bharat 组织创建的大规模平行语料库,旨在支持印度语言的自然语言处理任务,特别是机器翻译。

主要用途

  • 机器翻译模型训练:为多种印度语言提供高质量的平行句对。
  • 多语言 NLP 研究:支持跨语言理解和生成任务。
  • 低资源语言支持:重点覆盖资源相对较少的印度语言。

数据类型与模态

  • 模态:纯文本
  • 核心内容:平行句对(源语言与目标语言的句子对齐)
  • 数据格式:Parquet

规模与统计

  • 总行数:约 4977 万条记录(句对)
  • 下载量:超过 1400 次
  • 社区认可:获得 37 次点赞

使用场景

  • 训练和评估印度语言之间的机器翻译系统。
  • 构建多语言语言模型或跨语言表示学习。
  • 学术研究和工业应用,特别是在南亚语言技术领域。
28 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 12 ms
Developed with Cursor