II-Search-SFT 数据集简介
II-Search-SFT 是一个用于指令微调(SFT)的文本数据集,旨在提升模型在互联网搜索相关任务上的理解和生成能力。
主要用途
该数据集主要用于对大型语言模型进行监督式微调,特别侧重于增强模型处理与网络搜索相关的查询、指令和对话的能力。经过此数据集训练的模型预期能更好地理解用户搜索意图,并生成更相关、有用的回应。
数据类型与模态
- 模态:纯文本(Text)
- 内容:数据集包含高质量的指令-响应对(Instruction-Response pairs),这些数据对经过精心构建,以模拟真实的搜索交互场景。
数据规模
使用场景
- 搜索增强模型训练:作为训练数据,专门用于微调模型,使其成为更智能的“搜索助手”或集成搜索功能的对话AI。
- 指令遵循能力研究:可用于研究和提升模型对复杂、多轮搜索指令的理解与执行能力。
- 检索增强生成(RAG):可作为构建或评估RAG系统的基础数据之一,帮助模型学习如何基于查询生成搜索关键词或整合搜索结果。
数据来源与访问
- 作者/维护者:Intelligent-Internet
- 访问方式:需手动申请访问权限(
gated: manual)。
- 数据格式:主要提供 Parquet 格式文件,支持使用
datasets、dask、polars 等库进行高效加载和处理。