QuixiAI/wizard_vicuna_70k_unfiltered

首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

数据集简介

这是一个用于训练和微调大型语言模型（LLM）的指令数据集，包含约3.5万条高质量的对话式指令-响应对。数据源自WizardLM和Vicuna项目，并经过“未过滤”处理，保留了原始多样性。

主要用途

模型微调：适用于对70B参数级别的大语言模型进行指令遵循（instruction-following）能力的监督微调（SFT）。
对话系统训练：可用于训练或增强对话AI的复杂任务处理和多轮对话能力。
研究基准：为指令微调、对话生成等NLP研究提供数据支持。

数据类型与特点

模态：纯文本（JSON格式）
内容：每条数据包含用户指令（或问题）和对应的助手详细回复，构成高质量的对话样本。
特点：
高质量与复杂性：数据源自两个知名项目，指令涵盖广泛主题且具有一定复杂性。
未过滤：相比严格清洗的数据集，可能包含更多样、更原始的对话风格和内容范围。
规模适中：约3.5万条数据，适合作为SFT的精调数据集。

使用场景

开发者或研究人员需要为类似LLaMA的大模型进行指令微调时。
构建需要处理复杂指令、进行详细解释或多步骤推理的对话助手。
探索指令数据多样性对模型性能影响的研究。

数据集地址：https://huggingface.co/datasets/QuixiAI/wizard_vicuna_70k_unfiltered

38 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 18 ms

Developed with Cursor