数据集简介
MMARCO(Multilingual MS MARCO)是一个多语言信息检索数据集,由 unicamp-dl 团队发布。它基于著名的 MS MARCO 数据集构建,旨在为多语言检索任务提供基准。
主要用途
该数据集主要用于训练和评估多语言信息检索模型,支持跨语言的文档检索和问答任务。
数据类型/模态
- 模态类型:文本
- 语言:多语言(涵盖多种语言,具体语言种类需参考完整数据集文档)
- 内容:包含查询(queries)、相关文档(documents)以及对应的相关性判断
规模与统计
- 下载量:5948 次(截至统计时)
- 社区关注度:87 个点赞
- 更新日期:2024年3月6日
使用场景
- 多语言检索模型开发与测试
- 跨语言信息检索研究
- 检索式问答系统构建