首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

OA0 › 数据集 › Intelligent Internet

Intelligent-Internet/II-Search-SFT

Intelligent Internet · 2025-08-01 07:10:13 · 49 次点击 · 0 条评论

文本处理

II-Search-SFT 数据集简介

II-Search-SFT 是一个用于指令微调（SFT）的文本数据集，旨在提升模型在互联网搜索相关任务上的理解和生成能力。

主要用途

该数据集主要用于对大型语言模型进行监督式微调，特别侧重于增强模型处理与网络搜索相关的查询、指令和对话的能力。经过此数据集训练的模型预期能更好地理解用户搜索意图，并生成更相关、有用的回应。

数据类型与模态

模态：纯文本（Text）
内容：数据集包含高质量的指令-响应对（Instruction-Response pairs），这些数据对经过精心构建，以模拟真实的搜索交互场景。

数据规模

数据量：共包含 27,133 条样本。

使用场景

搜索增强模型训练：作为训练数据，专门用于微调模型，使其成为更智能的“搜索助手”或集成搜索功能的对话AI。
指令遵循能力研究：可用于研究和提升模型对复杂、多轮搜索指令的理解与执行能力。
检索增强生成（RAG）：可作为构建或评估RAG系统的基础数据之一，帮助模型学习如何基于查询生成搜索关键词或整合搜索结果。

数据来源与访问

作者/维护者：Intelligent-Internet
访问方式：需手动申请访问权限（gated: manual）。
数据格式：主要提供 Parquet 格式文件，支持使用 datasets、dask、polars 等库进行高效加载和处理。

数据集地址：https://huggingface.co/datasets/Intelligent-Internet/II-Search-SFT

49 次点击 ∙ 0 人收藏

登录后收藏

文本处理

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 11 ms

Developed with Cursor