数据集简介
Helsinki-NLP/multi_para_crawl 是一个由赫尔辛基大学自然语言处理团队(Helsinki-NLP)发布的多语言平行语料库数据集。该数据集基于网络爬取(crawl)构建,主要用于机器翻译、跨语言自然语言处理等任务。
主要用途
- 机器翻译模型训练与评估:为多语言神经机器翻译系统提供平行文本数据。
- 跨语言研究:支持语言对比分析、多语言词向量学习等研究。
- 预训练数据源:可作为多语言预训练模型(如 mBERT、XLM-R)的补充数据。
数据类型/模态
- 文本数据:纯文本平行语料。
- 多语言对齐:包含多种语言之间的句子/段落级对齐。
- 来源:基于网络公开内容爬取和清洗。
规模与统计
- 下载量:48次(截至元数据统计时)。
- 更新日期:2024年1月18日。
- 公开性:完全公开(非门控数据集),可自由下载使用。
使用场景
- 需要大规模多语言平行数据的机器翻译项目。
- 学术研究中构建或评估跨语言NLP模型。
- 低资源语言翻译任务的补充数据源。