sentence-transformers/msmarco

首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

数据集简介

这是一个由 sentence-transformers 团队提供的文本数据集，基于 MS MARCO 数据集构建，主要用于训练和评估信息检索与文本相似度模型。

主要用途

信息检索：训练模型理解查询与文档之间的相关性。
文本嵌入：生成高质量的句子或段落向量表示。
语义搜索：构建能够理解语义相似性的搜索系统。

数据类型与模态

模态：纯文本。
内容：包含查询（queries）和对应的相关文档/段落。

规模与统计

数据量：约 5.27 亿行（5.266 亿条记录）。
格式：Parquet 格式，便于高效存储与处理。

使用场景

开发或微调句子嵌入模型（如 Sentence-BERT）。
构建语义搜索引擎或问答系统。
作为信息检索任务的基准数据集进行评估。

数据集地址：https://huggingface.co/datasets/sentence-transformers/msmarco

69 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 15 ms

Developed with Cursor