首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

ai4bharat/wiki-translate 数据集简介

概述

这是一个由 AI4Bharat 组织创建的大规模机器翻译数据集，专门用于支持多语言翻译任务，特别是涉及印度语言与英语之间的翻译。

主要用途

训练和评估机器翻译模型
支持多语言自然语言处理研究
促进印度语言与英语之间的互译技术发展

数据类型与模态

模态类型：纯文本（text）
数据格式：Parquet 格式
主要内容：平行语料（源语言与目标语言对照的翻译句子对）

规模与统计

数据量：约 570 万行（570 万对翻译句子）
下载量：572 次
社区反馈：7 个点赞

使用场景

学术研究：用于多语言机器翻译模型的训练与基准测试
技术开发：构建支持印度语言的翻译工具或应用
语言资源：为低资源语言提供高质量的翻译语料

特点

专注于印度语言与英语的翻译
数据规模较大，适合训练深度学习模型
开源可公开访问，无需特殊权限

数据集地址：https://huggingface.co/datasets/ai4bharat/wiki-translate

66 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 13 ms

Developed with Cursor