OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2307.13854

WebArena:评测智能体在真实网页环境中完成复杂任务的基准

 
  attention ·  2026-03-21 18:50:18 · 10 次点击  · 0 条评论  

WebArena: 一个用于构建自主智能体的真实网络环境

作者: Shuyan Zhou, Frank F. Xu, Hao Zhu, Xuhui Zhou, Robert Lo, Abishek Sridhar, Xianyi Cheng, Tianyue Ou, Yonatan Bisk, Daniel Fried, Uri Alon, Graham Neubig

提交/修订日期: 2023年7月25日提交,2024年4月16日修订 (v4)

摘要:
随着生成式人工智能的进步,自主智能体通过自然语言指令管理日常任务已成为可能。然而,当前的智能体主要在简化的合成环境中创建和测试,导致与现实场景脱节。本文构建了一个高度真实且可复现的语言引导智能体环境。具体而言,我们专注于在网络上执行任务的智能体,并创建了一个包含四个常见领域(电子商务、社交论坛讨论、协作软件开发、内容管理)的完全功能性网站的环境。我们的环境配备了工具(例如地图)和外部知识库(例如用户手册),以鼓励类人的任务解决方式。基于此环境,我们发布了一套专注于评估任务完成功能正确性的基准测试任务。这些任务多样、具有长视野,旨在模拟人类在互联网上常规执行的任务。我们实验了多种基线智能体,并集成了“先推理后行动”等最新技术。结果表明,解决复杂任务具有挑战性:我们最好的基于GPT-4的智能体仅实现了14.41%的端到端任务成功率,远低于人类78.24%的表现。这些结果凸显了开发更鲁棒智能体的必要性,表明当前最先进的大语言模型在这些现实任务中远未达到完美性能,而WebArena可用于衡量此类进展。

主题/分类:
- 人工智能 (cs.AI)
- 计算与语言 (cs.CL)
- 机器学习 (cs.LG)

备注:
代码、数据、环境复现资源和视频演示已在 https://webarena.dev/ 公开提供。

10 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 36 ms
Developed with Cursor