OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
说明
  • 条目同步来自 Hugging Face 主要方便针对性讨论。
OA0  ›  数据集  ›  Intelligent Internet

Intelligent-Internet/II-Search-SFT

 
  Intelligent Internet  ·  2025-08-01 07:10:13  ·  3 次点击  ·  0 条评论  

II-Search-SFT 数据集简介

II-Search-SFT 是一个用于指令微调(SFT)的文本数据集,旨在提升模型在互联网搜索相关任务上的理解和生成能力。

主要用途

该数据集主要用于对大型语言模型进行监督式微调,特别侧重于增强模型处理与网络搜索相关的查询、指令和对话的能力。经过此数据集训练的模型预期能更好地理解用户搜索意图,并生成更相关、有用的回应。

数据类型与模态

  • 模态:纯文本(Text)
  • 内容:数据集包含高质量的指令-响应对(Instruction-Response pairs),这些数据对经过精心构建,以模拟真实的搜索交互场景。

数据规模

  • 数据量:共包含 27,133 条样本。

使用场景

  • 搜索增强模型训练:作为训练数据,专门用于微调模型,使其成为更智能的“搜索助手”或集成搜索功能的对话AI。
  • 指令遵循能力研究:可用于研究和提升模型对复杂、多轮搜索指令的理解与执行能力。
  • 检索增强生成(RAG):可作为构建或评估RAG系统的基础数据之一,帮助模型学习如何基于查询生成搜索关键词或整合搜索结果。

数据来源与访问

  • 作者/维护者:Intelligent-Internet
  • 访问方式:需手动申请访问权限(gated: manual)。
  • 数据格式:主要提供 Parquet 格式文件,支持使用 datasetsdaskpolars 等库进行高效加载和处理。
数据集地址:None
3 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 13 ms
Developed with Cursor