作者: Hongliang He, Wenlin Yao, Kaixin Ma, Wenhao Yu, Yong Dai, Hongming Zhang, Zhenzhong Lan, Dong Yu
提交/修订日期: 2024年1月25日提交,2024年1月28日修订 (v2)
主题/分类: 计算与语言 (cs.CL); 人工智能 (cs.AI)
摘要:
大型语言模型 (LLMs) 的进步引领了一个新时代,其特征是在现实世界中开发自主应用,这推动了高级网络智能体的创新。现有的网络智能体通常只能处理单一输入模态,并且仅在简化的网络模拟器或静态网页快照中进行评估,这极大地限制了它们在现实场景中的适用性。为了弥补这一差距,我们引入了 WebVoyager,这是一个由大型多模态模型 (LMM) 驱动的创新网络智能体,它可以通过与真实世界的网站交互来端到端地完成用户指令。此外,我们提出了一种新的网络智能体评估协议,以解决开放式网络智能体任务自动评估的挑战,该协议利用了 GPT-4V 强大的多模态理解能力。我们通过从 15 个广泛使用的网站收集真实世界任务来创建一个新的基准,以评估我们的智能体。我们表明,WebVoyager 实现了 55.7% 的任务成功率,显著超过了 GPT-4 (All Tools) 和 WebVoyager (纯文本) 设置的性能,突显了 WebVoyager 在实际应用中的卓越能力。我们发现,我们提出的自动评估与人类判断的一致性达到了 85.3%,为网络智能体在真实世界环境中的进一步发展铺平了道路。