数据集简介
这是一个由 sentence-transformers 团队提供的文本数据集,基于 MS MARCO 数据集构建,主要用于训练和评估信息检索与文本相似度模型。
主要用途
- 信息检索:训练模型理解查询与文档之间的相关性。
- 文本嵌入:生成高质量的句子或段落向量表示。
- 语义搜索:构建能够理解语义相似性的搜索系统。
数据类型与模态
- 模态:纯文本。
- 内容:包含查询(queries)和对应的相关文档/段落。
规模与统计
- 数据量:约 5.27 亿行(5.266 亿条记录)。
- 格式:Parquet 格式,便于高效存储与处理。
使用场景
- 开发或微调句子嵌入模型(如 Sentence-BERT)。
- 构建语义搜索引擎或问答系统。
- 作为信息检索任务的基准数据集进行评估。