Helsinki-NLP/eitb_parcc

首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

数据集简介

这是一个由赫尔辛基大学自然语言处理团队（Helsinki-NLP）发布的文本数据集，主要用于机器翻译或跨语言文本对齐研究。

主要用途

机器翻译模型训练与评估
跨语言文本对齐任务
多语言自然语言处理研究

数据类型与特点

模态类型：纯文本数据
数据规模：包含约63.7万行文本数据
语言特征：从数据集名称推测可能涉及巴斯克语（EITB）与英语或其他语言的平行语料

使用场景

构建多语言翻译系统
研究低资源语言（如巴斯克语）的机器翻译
平行语料库的构建与分析

技术信息

数据格式：Parquet
支持工具：可通过Hugging Face Datasets、Pandas、Polars等库直接加载使用
访问权限：公开可用（非受限数据集）

数据集地址：https://huggingface.co/datasets/Helsinki-NLP/eitb_parcc

76 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 19 ms

Developed with Cursor