WebArena: 一个用于构建自主智能体的真实网络环境

作者： Shuyan Zhou, Frank F. Xu, Hao Zhu, Xuhui Zhou, Robert Lo, Abishek Sridhar, Xianyi Cheng, Tianyue Ou, Yonatan Bisk, Daniel Fried, Uri Alon, Graham Neubig

提交/修订日期： 2023年7月25日提交，2024年4月16日修订 (v4)

摘要：
随着生成式人工智能的进步，自主智能体通过自然语言指令管理日常任务已成为可能。然而，当前的智能体主要在简化的合成环境中创建和测试，导致与现实场景脱节。本文构建了一个高度真实且可复现的语言引导智能体环境。具体而言，我们专注于在网络上执行任务的智能体，并创建了一个包含四个常见领域（电子商务、社交论坛讨论、协作软件开发、内容管理）的完全功能性网站的环境。我们的环境配备了工具（例如地图）和外部知识库（例如用户手册），以鼓励类人的任务解决方式。基于此环境，我们发布了一套专注于评估任务完成功能正确性的基准测试任务。这些任务多样、具有长视野，旨在模拟人类在互联网上常规执行的任务。我们实验了多种基线智能体，并集成了“先推理后行动”等最新技术。结果表明，解决复杂任务具有挑战性：我们最好的基于GPT-4的智能体仅实现了14.41%的端到端任务成功率，远低于人类78.24%的表现。这些结果凸显了开发更鲁棒智能体的必要性，表明当前最先进的大语言模型在这些现实任务中远未达到完美性能，而WebArena可用于衡量此类进展。

主题/分类：
- 人工智能 (cs.AI)
- 计算与语言 (cs.CL)
- 机器学习 (cs.LG)

备注：
代码、数据、环境复现资源和视频演示已在 https://webarena.dev/ 公开提供。

论文地址：https://arxiv.org/abs/2307.13854

49 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

WebArena：评测智能体在真实网页环境中完成复杂任务的基准

WebArena: 一个用于构建自主智能体的真实网络环境