作者: Junyang Wang, Haiyang Xu, Jiabo Ye, Ming Yan, Weizhou Shen, Ji Zhang, Fei Huang, Jitao Sang
提交/修订日期: 2024年1月29日提交,2024年4月18日修订
摘要:
基于多模态大语言模型(MLLM)的移动设备智能体正成为一种流行的应用。本文介绍了 Mobile-Agent,一个自主的多模态移动设备智能体。Mobile-Agent 首先利用视觉感知工具,准确识别和定位应用程序前端界面中的视觉和文本元素。基于感知到的视觉上下文,它随后自主规划和分解复杂的操作任务,并通过逐步操作来导航移动应用程序。与以往依赖应用程序 XML 文件或移动系统元数据的解决方案不同,Mobile-Agent 以视觉为中心的方式,实现了跨不同移动操作环境的更强适应性,从而消除了针对特定系统进行定制的必要性。为了评估 Mobile-Agent 的性能,我们引入了 Mobile-Eval,一个用于评估移动设备操作的基准。基于 Mobile-Eval,我们对 Mobile-Agent 进行了全面评估。实验结果表明,Mobile-Agent 取得了显著的准确率和完成率。即使面对具有挑战性的指令,例如多应用程序操作,Mobile-Agent 仍然能够完成任务。代码和模型将在 https://github.com/X-PLUG/MobileAgent 开源。
主题/分类:
- 主要学科:计算与语言(cs.CL)
- 相关学科:计算机视觉与模式识别(cs.CV)
备注: 已被 ICLR 2024 大语言模型(LLM)智能体研讨会接收。