ITBench-Trajectories 是由 IBM Research 发布的一个数据集,主要用于评估和基准测试智能体(Agent)在复杂、多步骤任务中的表现。
该数据集旨在为智能体(尤其是基于大型语言模型的智能体)提供一个标准化的测试平台,用于衡量其在遵循指令、执行多步骤操作、处理工具调用以及与环境交互等方面的能力。
数据集包含任务轨迹,记录了智能体完成特定任务过程中的一系列状态、动作和观察。这些轨迹通常以结构化的格式(如 JSON)存储,包含了:
* 任务描述:需要完成的目标。
* 环境状态:任务执行过程中的世界状态。
* 动作序列:智能体采取的行动(如工具调用、API请求)。
* 观察结果:执行动作后环境的反馈。