WebVoyager：使用大型多模态模型构建端到端网络智能体

作者： Hongliang He, Wenlin Yao, Kaixin Ma, Wenhao Yu, Yong Dai, Hongming Zhang, Zhenzhong Lan, Dong Yu

提交/修订日期： 2024年1月25日提交，2024年6月6日修订 (v4)

摘要：
大型语言模型（LLMs）的快速发展开启了一个在现实场景中开发自主应用的新时代，这推动了创建高级网络智能体的创新。现有的网络智能体通常只能处理单一输入模态，并且仅在简化的网络模拟器或静态网页快照中进行评估，这极大地限制了它们在现实场景中的适用性。为了弥合这一差距，我们引入了 WebVoyager，一个由大型多模态模型（LMM）驱动的创新型网络智能体，它可以通过与现实世界的网站交互来端到端地完成用户指令。此外，我们通过从15个流行网站收集真实世界任务建立了一个新的基准，并引入了一种利用 GPT-4V 的多模态理解能力来评估开放式网络智能体的自动评估协议。我们的实验表明，WebVoyager 在我们的基准上实现了 59.1% 的任务成功率，显著超越了 GPT-4（所有工具）和 WebVoyager（纯文本）设置的性能，突显了 WebVoyager 的卓越能力。所提出的自动评估指标与人类判断的一致性达到了 85.3%，表明其在提供可靠且准确的网络智能体评估方面的有效性。

主题/分类：
- 计算与语言 (cs.CL)
- 人工智能 (cs.AI)

备注： 本文已被 ACL 2024（主会）接收。代码和数据已发布于：https://github.com/MinorJerry/WebVoyager

论文地址：https://arxiv.org/abs/2401.13919

52 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

WebVoyager：让多模态大模型在真实网页环境中完成智能体任务

WebVoyager：使用大型多模态模型构建端到端网络智能体