作者:Zhengyuan Yang, Linjie Li, Jianfeng Wang, Kevin Lin, Ehsan Azarnasab, Faisal Ahmed, Zicheng Liu, Ce Liu, Michael Zeng, Lijuan Wang
提交日期:2023年3月20日
摘要:
本文提出了MM-REACT,一种将ChatGPT与一系列视觉专家模型相结合的系统范式,旨在实现多模态推理与行动。论文定义并探索了一系列现有视觉和视觉-语言模型可能难以解决的、具有挑战性的高级视觉任务。为实现这种高级视觉智能,MM-REACT引入了一种文本提示设计,该设计能够表示文本描述、文本化的空间坐标以及与密集视觉信号(如图像和视频)对齐的文件名。MM-REACT的提示设计使得语言模型能够接受、关联和处理多模态信息,从而促进ChatGPT与各种视觉专家模型的协同组合。零样本实验证明了MM-REACT在解决特定关注能力方面的有效性,及其在需要高级视觉理解的不同场景中的广泛应用。此外,本文还讨论并比较了MM-REACT的系统范式与另一种通过联合微调来扩展语言模型以处理多模态场景的替代方法。
主题/分类:
- 计算机视觉与模式识别 (cs.CV)
- 计算与语言 (cs.CL)
- 机器学习 (cs.LG)
资源链接:代码、演示、视频和可视化内容可在 https://multimodal-react.github.io/ 获取。