Helsinki-NLP/opus_wikipedia

首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

数据集简介

OPUS Wikipedia 数据集由赫尔辛基大学自然语言处理团队（Helsinki-NLP）整理，是一个大规模的多语言平行文本语料库，主要基于维基百科内容构建。

主要用途

该数据集主要用于机器翻译、跨语言信息检索、多语言自然语言处理模型训练等任务，支持多种语言对的平行语料研究。

数据类型/模态

模态类型：纯文本数据
数据格式：Parquet 格式
数据特性：平行语料（多语言对齐文本）

规模统计

数据行数：约 174.6 万条
下载量：173 次
点赞数：10 次

使用场景

机器翻译系统开发：为多语言翻译模型提供训练数据
跨语言研究：支持语言对比分析和跨语言知识迁移
多语言 NLP 模型预训练：可作为多语言语言模型的补充语料
语言学分析：研究不同语言在相同主题下的表达差异

技术特点

开源可公开访问（非受限数据集）
支持常用数据处理库（pandas、polars 等）
采用高效的 Parquet 存储格式

数据集地址：https://huggingface.co/datasets/Helsinki-NLP/opus_wikipedia

68 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 22 ms

Developed with Cursor