OmniACT: 一个用于支持桌面和网页多模态通用自主智能体的数据集与基准

作者： Raghav Kapoor, Yash Parag Butala, Melisa Russak, Jing Yu Koh, Kiran Kamble, Waseem Alshikh, Ruslan Salakhutdinov

提交/修订日期： 2024年2月27日提交，2024年7月21日修订（v3）

摘要：
数十年来，人机交互本质上一直是手动的。即使在今天，几乎所有在计算机上完成的生产性工作都需要人类在每一步都进行输入。自主虚拟智能体代表了自动化许多此类繁琐任务的一个激动人心的步骤。虚拟智能体将使技术熟练度有限的用户能够充分利用计算机系统的全部可能性。它们还可以高效地简化众多计算机任务，从日历管理到复杂的旅行预订，只需最少的人工干预。本文介绍了 OmniACT，这是一个首创的数据集和基准，用于评估智能体生成可执行程序以完成计算机任务的能力。我们的研究范围超越了传统的网络自动化，涵盖了多样化的桌面应用程序。该数据集包含基本任务（如“播放下一首歌”）以及更长期的任务（如“向 John Doe 发送一封提及会面时间和地点的电子邮件”）。具体来说，给定一个屏幕图像和一个基于视觉的自然语言任务对，目标是生成一个能够完全执行该任务的脚本。我们在基准测试上运行了几个强大的基线语言模型智能体。最强的基线 GPT-4 在我们的基准测试中表现最佳，但其性能水平仅达到人类在生成能够完成任务的可执行脚本方面的熟练度的 15%，这证明了我们的任务对于传统网络智能体的挑战性。我们的基准测试为衡量和评估语言模型智能体在自动化计算机任务方面的进展提供了一个平台，并激励未来朝着构建连接大语言模型和计算机屏幕视觉基础的多模态模型的方向努力。

主题/分类：
- 人工智能 (cs.AI)
- 计算与语言 (cs.CL)
- 计算机视觉与模式识别 (cs.CV)
- 人机交互 (cs.HC)

论文地址：https://arxiv.org/abs/2402.17553

25 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

OmniACT：让多模态 Agent 在图形界面中完成真实交互任务

OmniACT: 一个用于支持桌面和网页多模态通用自主智能体的数据集与基准