Helsinki-NLP/opus_ubuntu

首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

数据集简介

该数据集由赫尔辛基大学自然语言处理团队（Helsinki-NLP）发布，是一个基于Ubuntu操作系统相关内容的平行语料库，主要用于机器翻译等自然语言处理任务。

主要用途

训练和评估机器翻译模型
多语言自然语言处理研究
技术文档翻译任务

数据类型

模态：纯文本数据
语言对：多语言平行语料（具体语言对需进一步查看数据集详情）
内容领域：Ubuntu操作系统相关技术文档、论坛讨论等

数据规模

总行数：37,448条
下载量：245次
社区评价：4个点赞

使用场景

构建针对技术领域的专业翻译系统
跨语言信息检索研究
计算机领域术语对齐研究
多语言预训练语言模型的数据补充

特点说明

数据格式：Parquet格式，便于大数据处理
开放访问：非门控数据集，可自由下载使用
技术支持：兼容主流数据处理库（pandas、polars等）

数据集地址：https://huggingface.co/datasets/Helsinki-NLP/opus_ubuntu

66 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 11 ms

Developed with Cursor