ProcessBench 是由 Qwen 团队发布的一个文本数据集,专注于流程推理与执行任务。它旨在评估和提升语言模型在理解、规划和执行多步骤任务方面的能力。
该数据集主要用于测试和训练语言模型处理复杂流程的能力,例如: - 解析自然语言描述的步骤 - 生成或执行有序的操作序列 - 解决需要多步推理的问题
适用于以下研究方向或应用: - 流程自动化与任务规划 - 指令跟随与步骤推理 - 评估模型在序列决策和逻辑执行上的性能