OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
说明
  • 条目同步来自 Hugging Face 主要方便针对性讨论。
OA0  ›  数据集  ›  Ai2

allenai/Dolci-Think-RL-32B

 
  Ai2  ·  2026-01-05 16:24:00  ·  13 次点击  ·  0 条评论  

数据集简介

由 AllenAI 发布的 Dolci-Think-RL-32B 是一个用于强化学习(RL)训练的大型文本数据集,特别侧重于思维链(Chain-of-Thought)推理任务。

主要用途

该数据集旨在训练或微调大型语言模型(LLM),提升其在复杂推理、多步问题解决和遵循指令方面的能力,尤其适用于需要强化学习进行策略优化的场景。

数据类型与模态

  • 模态:纯文本(text)
  • 格式:支持 Parquet 和优化版 Parquet 格式,便于高效存储与处理。
  • 规模:包含约 10.2 万行数据。

数据特点

  • 核心内容:数据围绕“思维链”过程组织,可能包含问题、推理步骤和答案,适合训练模型进行逻辑推理。
  • 技术适用性:适用于使用 Datasets、Dask、Polars 或 MLCroissant 等库进行数据处理和机器学习工作流。
  • 开放性:数据集完全公开(非私有、非门控),可自由下载和使用。

使用场景

  • 训练或微调大语言模型(尤其是约 320 亿参数级别)的推理能力。
  • 强化学习在自然语言处理领域的应用研究。
  • 开发需要复杂多步推理的对话系统或问答系统。
13 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 13 ms
Developed with Cursor