Facebook 发布的 Wiki DPR 数据集,是一个用于密集段落检索(Dense Passage Retrieval, DPR)任务的大规模开源数据集。它旨在训练和评估基于稠密向量的开放域问答系统。
该数据集主要用于训练和评估开放域问答和信息检索模型。具体来说,它支持模型学习如何根据问题,从大规模知识库(如维基百科)中精准地检索出相关段落作为答案依据。
数据集主要包含文本模态的数据,结构通常包括:
* 问题:自然语言形式的查询。
* 相关段落:从维基百科中提取的、能够回答对应问题的正样本段落。
* 负样本段落:与问题不相关或相关性较弱的段落,用于对比学习。