作者: Yadong Lu, Jianwei Yang, Yelong Shen, Ahmed Awadallah
提交日期: 2024年8月1日
摘要:
近年来,大型视觉语言模型(LVLM)的成功展现了驱动用户界面(UI)上运行的智能体系统的巨大潜力。然而,我们认为,像 GPT-4V 这样的多模态模型作为跨不同应用和多个操作系统的通用智能体的能力被严重低估了,这主要是由于缺乏一种鲁棒的屏幕解析技术,该技术需要能够:1)可靠地识别用户界面中的可交互图标;2)理解屏幕截图中各种元素的语义,并准确地将预期操作与屏幕上的相应区域关联起来。
为了填补这些空白,我们提出了 OmniParser,一种将用户界面屏幕截图解析为结构化元素的综合方法。它显著增强了 GPT-4V 生成操作的能力,使这些操作能够准确地定位在界面的相应区域。我们首先使用流行的网页策划了一个可交互图标检测数据集和一个图标描述数据集。这些数据集被用于微调专门的模型:一个用于解析屏幕上可交互区域的检测模型,以及一个用于提取检测元素功能语义的描述模型。
实验结果表明:
* OmniParser 显著提升了 GPT-4V 在 ScreenSpot 基准测试上的性能。
* 在 Mind2Web 和 AITW 基准测试上,仅使用屏幕截图作为输入的 OmniParser 的表现优于需要屏幕截图外额外信息的 GPT-4V 基线模型。
主题分类:
* Computer Vision and Pattern Recognition (cs.CV)
* Artificial Intelligence (cs.AI)
* Computation and Language (cs.CL)
* Machine Learning (cs.LG)