数据集简介
OPUS Wikipedia 数据集由赫尔辛基大学自然语言处理团队(Helsinki-NLP)整理,是一个大规模的多语言平行文本语料库,主要基于维基百科内容构建。
主要用途
该数据集主要用于机器翻译、跨语言信息检索、多语言自然语言处理模型训练等任务,支持多种语言对的平行语料研究。
数据类型/模态
- 模态类型:纯文本数据
- 数据格式:Parquet 格式
- 数据特性:平行语料(多语言对齐文本)
规模统计
- 数据行数:约 174.6 万条
- 下载量:173 次
- 点赞数:10 次
使用场景
- 机器翻译系统开发:为多语言翻译模型提供训练数据
- 跨语言研究:支持语言对比分析和跨语言知识迁移
- 多语言 NLP 模型预训练:可作为多语言语言模型的补充语料
- 语言学分析:研究不同语言在相同主题下的表达差异
技术特点
- 开源可公开访问(非受限数据集)
- 支持常用数据处理库(pandas、polars 等)
- 采用高效的 Parquet 存储格式