Qwen/ProcessBench

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

数据集简介

ProcessBench 是由 Qwen 团队发布的一个文本数据集，专注于流程推理与执行任务。它旨在评估和提升语言模型在理解、规划和执行多步骤任务方面的能力。

该数据集主要用于测试和训练语言模型处理复杂流程的能力，例如：
- 解析自然语言描述的步骤
- 生成或执行有序的操作序列
- 解决需要多步推理的问题

适用于以下研究方向或应用：
- 流程自动化与任务规划
- 指令跟随与步骤推理
- 评估模型在序列决策和逻辑执行上的性能

75 次点击 ∙ 0 人收藏

登录后收藏

0 条回复