数据集简介
该数据集由赫尔辛基大学自然语言处理团队(Helsinki-NLP)发布,是一个大规模的平行文本语料库,主要用于机器翻译及相关自然语言处理任务。
主要用途
- 机器翻译训练与评估:为多语言机器翻译模型提供训练和测试数据。
- 跨语言研究:支持语言对齐、翻译质量评估等研究。
数据类型与模态
- 模态:纯文本(text)
- 数据格式:平行句对(源语言与目标语言对齐的文本)
规模与统计
- 数据量:包含超过204万条平行句对(2,047,030行)
- 存储格式:Parquet格式(高效列式存储,适合大数据处理)
- 访问状态:公开可访问(非受限数据集)
使用场景
- 可用于构建或微调多语言翻译模型。
- 适合学术研究、开源项目及工业级翻译系统开发。
- 支持通过主流数据处理库(如pandas、polars)直接加载使用。