Mobile-Agent: 具备视觉感知能力的自主多模态移动设备智能体

作者： Junyang Wang, Haiyang Xu, Jiabo Ye, Ming Yan, Weizhou Shen, Ji Zhang, Fei Huang, Jitao Sang

提交/修订日期： 2024年1月29日提交，2024年4月18日修订

摘要：
基于多模态大语言模型（MLLM）的移动设备智能体正成为一种流行的应用。本文介绍了 Mobile-Agent，一个自主的多模态移动设备智能体。Mobile-Agent 首先利用视觉感知工具，准确识别和定位应用程序前端界面中的视觉和文本元素。基于感知到的视觉上下文，它随后自主规划和分解复杂的操作任务，并通过逐步操作来导航移动应用程序。与以往依赖应用程序 XML 文件或移动系统元数据的解决方案不同，Mobile-Agent 以视觉为中心的方式，实现了跨不同移动操作环境的更强适应性，从而消除了针对特定系统进行定制的必要性。为了评估 Mobile-Agent 的性能，我们引入了 Mobile-Eval，一个用于评估移动设备操作的基准。基于 Mobile-Eval，我们对 Mobile-Agent 进行了全面评估。实验结果表明，Mobile-Agent 取得了显著的准确率和完成率。即使面对具有挑战性的指令，例如多应用程序操作，Mobile-Agent 仍然能够完成任务。代码和模型将在 https://github.com/X-PLUG/MobileAgent 开源。

主题/分类：
- 主要学科：计算与语言（cs.CL）
- 相关学科：计算机视觉与模式识别（cs.CV）

备注： 已被 ICLR 2024 大语言模型（LLM）智能体研讨会接收。

论文地址：https://arxiv.org/abs/2401.16158

25 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

Mobile-Agent：让多模态智能体在手机界面上执行复杂任务

Mobile-Agent: 具备视觉感知能力的自主多模态移动设备智能体