Helsinki-NLP/opus_books

首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

数据集简介

OPUS Books 是由赫尔辛基大学自然语言处理团队（Helsinki-NLP）构建的一个大规模平行语料库，主要包含从公开电子书中提取的多种语言对的句子对齐翻译文本。

主要用途

该数据集主要用于机器翻译模型的训练与评估，尤其适用于需要高质量、长篇幅文学或正式文本翻译的研究与应用。

数据类型/模态

模态：文本
内容：平行句对（源语言句子与目标语言句子的对齐文本）

规模与统计

数据量：包含超过 125 万行（即句对）。
语言对：涵盖多种语言组合（具体语言对需查阅数据集详情）。
来源：数据源自 Project Gutenberg 等公开领域的电子书。

使用场景

机器翻译研究：训练和测试统计机器翻译或神经机器翻译系统。
跨语言 NLP 任务：作为预训练数据，用于提升模型的多语言理解能力。
语言学分析：研究不同语言之间的语法、词汇和句式对应关系。

数据集地址：https://huggingface.co/datasets/Helsinki-NLP/opus_books

78 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 14 ms

Developed with Cursor