OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
说明
  • 条目同步来自 Hugging Face 主要方便针对性讨论。
OA0  ›  数据集  ›  Helsinki-NLP Research Group

Helsinki-NLP/multi_para_crawl

 
  Helsinki-NLP Research Group  ·  2024-01-18 11:09:47  ·  25 次点击  ·  0 条评论  

数据集简介

Helsinki-NLP/multi_para_crawl 是一个由赫尔辛基大学自然语言处理团队(Helsinki-NLP)发布的多语言平行语料库数据集。该数据集基于网络爬取(crawl)构建,主要用于机器翻译、跨语言自然语言处理等任务。

主要用途

  • 机器翻译模型训练与评估:为多语言神经机器翻译系统提供平行文本数据。
  • 跨语言研究:支持语言对比分析、多语言词向量学习等研究。
  • 预训练数据源:可作为多语言预训练模型(如 mBERT、XLM-R)的补充数据。

数据类型/模态

  • 文本数据:纯文本平行语料。
  • 多语言对齐:包含多种语言之间的句子/段落级对齐。
  • 来源:基于网络公开内容爬取和清洗。

规模与统计

  • 下载量:48次(截至元数据统计时)。
  • 更新日期:2024年1月18日。
  • 公开性:完全公开(非门控数据集),可自由下载使用。

使用场景

  • 需要大规模多语言平行数据的机器翻译项目。
  • 学术研究中构建或评估跨语言NLP模型。
  • 低资源语言翻译任务的补充数据源。
25 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 15 ms
Developed with Cursor