作者: Xiao Liu, Hao Yu, Hanchen Zhang, Yifan Xu, Xuanyu Lei, Hanyu Lai, Yu Gu, Hangliang Ding, Kaiwen Men, Kejuan Yang, Shudan Zhang, Xiang Deng, Aohan Zeng, Zhengxiao Du, Chenhui Zhang, Sheng Shen, Tianjun Zhang, Yu Su, Huan Sun, Minlie Huang, Yuxiao Dong, Jie Tang
提交日期: 2023年8月7日
摘要:
大型语言模型(LLMs)正变得越来越智能和自主,其目标已超越传统的自然语言处理任务,转向现实世界的实用使命。因此,迫切需要评估LLMs在交互式环境中作为智能体(Agents)处理具有挑战性任务的能力。本文提出了AgentBench,一个多维度的、持续演进的基准测试。该基准目前包含8个不同的环境,用于在多轮开放式生成设置中评估LLM作为智能体的推理和决策能力。我们对25个LLMs(包括API和开源模型)进行了广泛测试,结果表明,虽然顶尖的商业LLMs在复杂环境中表现出强大的智能体能力,但其性能与开源竞争对手之间存在显著差距。AgentBench也是一个更广泛、更深入的系统性LLM评估项目的组成部分。AgentBench的数据集、环境和集成评估包已在 https://github.com/THUDM/AgentBench 发布。
主题/分类:
- 人工智能 (cs.AI)
- 计算与语言 (cs.CL)
- 机器学习 (cs.LG)