AgentBench: Evaluating LLMs as Agents

作者： Xiao Liu, Hao Yu, Hanchen Zhang, Yifan Xu, Xuanyu Lei, Hanyu Lai, Yu Gu, Hangliang Ding, Kaiwen Men, Kejuan Yang, Shudan Zhang, Xiang Deng, Aohan Zeng, Zhengxiao Du, Chenhui Zhang, Sheng Shen, Tianjun Zhang, Yu Su, Huan Sun, Minlie Huang, Yuxiao Dong, Jie Tang

提交/修订日期： 2023年8月7日提交，2025年10月4日修订 (v3)

摘要：
大型语言模型（LLM）作为智能体的潜力近来已得到广泛认可。因此，迫切需要在交互环境中对LLM作为智能体在具有挑战性的任务上进行定量评估。本文提出了AgentBench，一个多维度的基准测试，包含8个不同的环境，用于评估LLM作为智能体的推理和决策能力。我们对大量基于API和开源（OSS）的LLM进行了广泛测试，结果表明，虽然顶尖的商业LLM在复杂环境中表现出强大的智能体能力，但它们与许多规模不超过700亿参数的开源模型之间存在显著的性能差距。我们识别了环境和LLM中典型的失败原因，表明较差的长期推理、决策制定和指令遵循能力是开发可用LLM智能体的主要障碍。改进指令遵循能力以及在高质量多轮对齐数据上进行训练可以提升智能体性能。此外，与现有假设不同，代码训练对不同智能体任务的影响是矛盾的。AgentBench的数据集、环境和集成评估包已在 https://github.com/THUDM/AgentBench 发布。

主题/分类：
- 人工智能 (cs.AI)
- 计算与语言 (cs.CL)
- 机器学习 (cs.LG)

备注： 发表于ICLR 2024。

论文地址：https://arxiv.org/abs/2308.03688

11 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

AgentBench：评测大语言模型作为智能体执行复杂任务的能力

AgentBench: Evaluating LLMs as Agents