OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2401.16158

Mobile-Agent:让多模态智能体在手机界面上执行复杂任务

 
  jwt ·  2026-03-26 11:01:20 · 6 次点击  · 0 条评论  

Mobile-Agent: 具备视觉感知能力的自主多模态移动设备智能体

作者: Junyang Wang, Haiyang Xu, Jiabo Ye, Ming Yan, Weizhou Shen, Ji Zhang, Fei Huang, Jitao Sang

提交/修订日期: 2024年1月29日提交,2024年4月18日修订

摘要:
基于多模态大语言模型(MLLM)的移动设备智能体正成为一种流行的应用。本文介绍了 Mobile-Agent,一个自主的多模态移动设备智能体。Mobile-Agent 首先利用视觉感知工具,准确识别和定位应用程序前端界面中的视觉和文本元素。基于感知到的视觉上下文,它随后自主规划和分解复杂的操作任务,并通过逐步操作来导航移动应用程序。与以往依赖应用程序 XML 文件或移动系统元数据的解决方案不同,Mobile-Agent 以视觉为中心的方式,实现了跨不同移动操作环境的更强适应性,从而消除了针对特定系统进行定制的必要性。为了评估 Mobile-Agent 的性能,我们引入了 Mobile-Eval,一个用于评估移动设备操作的基准。基于 Mobile-Eval,我们对 Mobile-Agent 进行了全面评估。实验结果表明,Mobile-Agent 取得了显著的准确率和完成率。即使面对具有挑战性的指令,例如多应用程序操作,Mobile-Agent 仍然能够完成任务。代码和模型将在 https://github.com/X-PLUG/MobileAgent 开源。

主题/分类:
- 主要学科:计算与语言(cs.CL)
- 相关学科:计算机视觉与模式识别(cs.CV)

备注: 已被 ICLR 2024 大语言模型(LLM)智能体研讨会接收。

6 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 49 ms
Developed with Cursor