首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

Samanantar 数据集简介

概述

Samanantar 是一个由 AI4Bharat 组织创建的大规模平行语料库，旨在支持印度语言的自然语言处理任务，特别是机器翻译。

主要用途

机器翻译模型训练：为多种印度语言提供高质量的平行句对。
多语言 NLP 研究：支持跨语言理解和生成任务。
低资源语言支持：重点覆盖资源相对较少的印度语言。

数据类型与模态

模态：纯文本
核心内容：平行句对（源语言与目标语言的句子对齐）
数据格式：Parquet

规模与统计

总行数：约 4977 万条记录（句对）
下载量：超过 1400 次
社区认可：获得 37 次点赞

使用场景

训练和评估印度语言之间的机器翻译系统。
构建多语言语言模型或跨语言表示学习。
学术研究和工业应用，特别是在南亚语言技术领域。

数据集地址：https://huggingface.co/datasets/ai4bharat/samanantar

71 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 12 ms

Developed with Cursor