作者: Hongliang He, Wenlin Yao, Kaixin Ma, Wenhao Yu, Yong Dai, Hongming Zhang, Zhenzhong Lan, Dong Yu
提交/修订日期: 2024年1月25日提交,2024年6月6日修订 (v4)
摘要:
大型语言模型(LLMs)的快速发展开启了一个在现实场景中开发自主应用的新时代,这推动了创建高级网络智能体的创新。现有的网络智能体通常只能处理单一输入模态,并且仅在简化的网络模拟器或静态网页快照中进行评估,这极大地限制了它们在现实场景中的适用性。为了弥合这一差距,我们引入了 WebVoyager,一个由大型多模态模型(LMM)驱动的创新型网络智能体,它可以通过与现实世界的网站交互来端到端地完成用户指令。此外,我们通过从15个流行网站收集真实世界任务建立了一个新的基准,并引入了一种利用 GPT-4V 的多模态理解能力来评估开放式网络智能体的自动评估协议。我们的实验表明,WebVoyager 在我们的基准上实现了 59.1% 的任务成功率,显著超越了 GPT-4(所有工具)和 WebVoyager(纯文本)设置的性能,突显了 WebVoyager 的卓越能力。所提出的自动评估指标与人类判断的一致性达到了 85.3%,表明其在提供可靠且准确的网络智能体评估方面的有效性。
主题/分类:
- 计算与语言 (cs.CL)
- 人工智能 (cs.AI)
备注: 本文已被 ACL 2024(主会)接收。代码和数据已发布于:https://github.com/MinorJerry/WebVoyager