OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2401.13919v2

WebVoyager:让多模态大模型在真实网页环境中执行任务

 
  drift ·  2026-03-07 04:05:25 · 4 次点击  · 0 条评论  

WebVoyager: 使用大型多模态模型构建端到端网络智能体

作者: Hongliang He, Wenlin Yao, Kaixin Ma, Wenhao Yu, Yong Dai, Hongming Zhang, Zhenzhong Lan, Dong Yu

提交/修订日期: 2024年1月25日提交,2024年1月28日修订 (v2)

主题/分类: 计算与语言 (cs.CL); 人工智能 (cs.AI)

摘要:
大型语言模型 (LLMs) 的进步引领了一个新时代,其特征是在现实世界中开发自主应用,这推动了高级网络智能体的创新。现有的网络智能体通常只能处理单一输入模态,并且仅在简化的网络模拟器或静态网页快照中进行评估,这极大地限制了它们在现实场景中的适用性。为了弥补这一差距,我们引入了 WebVoyager,这是一个由大型多模态模型 (LMM) 驱动的创新网络智能体,它可以通过与真实世界的网站交互来端到端地完成用户指令。此外,我们提出了一种新的网络智能体评估协议,以解决开放式网络智能体任务自动评估的挑战,该协议利用了 GPT-4V 强大的多模态理解能力。我们通过从 15 个广泛使用的网站收集真实世界任务来创建一个新的基准,以评估我们的智能体。我们表明,WebVoyager 实现了 55.7% 的任务成功率,显著超过了 GPT-4 (All Tools) 和 WebVoyager (纯文本) 设置的性能,突显了 WebVoyager 在实际应用中的卓越能力。我们发现,我们提出的自动评估与人类判断的一致性达到了 85.3%,为网络智能体在真实世界环境中的进一步发展铺平了道路。

4 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 33 ms
Developed with Cursor