allenai/Dolci-Think-RL-32B

首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

数据集简介

由 AllenAI 发布的 Dolci-Think-RL-32B 是一个用于强化学习（RL）训练的大型文本数据集，特别侧重于思维链（Chain-of-Thought）推理任务。

主要用途

该数据集旨在训练或微调大型语言模型（LLM），提升其在复杂推理、多步问题解决和遵循指令方面的能力，尤其适用于需要强化学习进行策略优化的场景。

数据类型与模态

模态：纯文本（text）
格式：支持 Parquet 和优化版 Parquet 格式，便于高效存储与处理。
规模：包含约 10.2 万行数据。

数据特点

核心内容：数据围绕“思维链”过程组织，可能包含问题、推理步骤和答案，适合训练模型进行逻辑推理。
技术适用性：适用于使用 Datasets、Dask、Polars 或 MLCroissant 等库进行数据处理和机器学习工作流。
开放性：数据集完全公开（非私有、非门控），可自由下载和使用。

使用场景

训练或微调大语言模型（尤其是约 320 亿参数级别）的推理能力。
强化学习在自然语言处理领域的应用研究。
开发需要复杂多步推理的对话系统或问答系统。

数据集地址：https://huggingface.co/datasets/allenai/Dolci-Think-RL-32B

58 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 11 ms

Developed with Cursor