allenai/Dolci-Think-RL-7B

首页注册登录

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

条目同步来自 Hugging Face 主要方便针对性讨论。

数据集简介

Dolci-Think-RL-7B 是由 AllenAI 发布的一个数据集，主要用于强化学习（RL）相关的训练和研究。

主要用途

该数据集旨在支持大语言模型（LLM）的强化学习训练，特别是针对推理和思考过程的优化。

数据类型与模态

模态类型：表格数据（Tabular）与文本（Text）混合
数据格式：Parquet
数据规模：包含约 10.2 万行数据

特点与适用场景

数据集规模适中，适用于模型微调或特定任务的强化学习训练。
结合了结构化的表格数据与非结构化的文本数据，可能包含用于引导模型“思考”或推理步骤的交互数据。
适用于研究如何通过强化学习提升语言模型的推理能力、分步思考或决策过程。

数据集地址：https://huggingface.co/datasets/allenai/Dolci-Think-RL-7B

57 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

关于 · 帮助 · PING · 隐私 · 条款

OA0 - Omni AI 0 一个探索 AI 的社区

沪ICP备2024103595号-2

耗时 19 ms

Developed with Cursor