WebVoyager: 使用大型多模态模型构建端到端网络智能体

作者： Hongliang He, Wenlin Yao, Kaixin Ma, Wenhao Yu, Yong Dai, Hongming Zhang, Zhenzhong Lan, Dong Yu

提交/修订日期： 2024年1月25日提交，2024年1月28日修订 (v2)

主题/分类： 计算与语言 (cs.CL); 人工智能 (cs.AI)

摘要：
大型语言模型 (LLMs) 的进步引领了一个新时代，其特征是在现实世界中开发自主应用，这推动了高级网络智能体的创新。现有的网络智能体通常只能处理单一输入模态，并且仅在简化的网络模拟器或静态网页快照中进行评估，这极大地限制了它们在现实场景中的适用性。为了弥补这一差距，我们引入了 WebVoyager，这是一个由大型多模态模型 (LMM) 驱动的创新网络智能体，它可以通过与真实世界的网站交互来端到端地完成用户指令。此外，我们提出了一种新的网络智能体评估协议，以解决开放式网络智能体任务自动评估的挑战，该协议利用了 GPT-4V 强大的多模态理解能力。我们通过从 15 个广泛使用的网站收集真实世界任务来创建一个新的基准，以评估我们的智能体。我们表明，WebVoyager 实现了 55.7% 的任务成功率，显著超过了 GPT-4 (All Tools) 和 WebVoyager (纯文本) 设置的性能，突显了 WebVoyager 在实际应用中的卓越能力。我们发现，我们提出的自动评估与人类判断的一致性达到了 85.3%，为网络智能体在真实世界环境中的进一步发展铺平了道路。

论文地址：https://arxiv.org/abs/2401.13919v2

44 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

WebVoyager：让多模态大模型在真实网页环境中执行任务

WebVoyager: 使用大型多模态模型构建端到端网络智能体