MiniGPT-4: 利用先进大语言模型增强视觉-语言理解

作者： Deyao Zhu, Jun Chen, Xiaoqian Shen, Xiang Li, Mohamed Elhoseiny

提交/修订日期： 2023年4月20日提交，2023年10月2日修订 (v2)

主题/分类： 计算机视觉与模式识别 (cs.CV)

摘要：
最近的 GPT-4 展示了非凡的多模态能力，例如直接从手写文本生成网站，以及识别图像中的幽默元素。这些功能在以往的视觉-语言模型中很少见。然而，GPT-4 背后的技术细节仍未公开。我们认为，GPT-4 增强的多模态生成能力源于对复杂大语言模型 (LLM) 的利用。为了研究这一现象，我们提出了 MiniGPT-4，它通过一个投影层将冻结的视觉编码器与冻结的先进 LLM（Vicuna）对齐。我们的工作首次揭示，将视觉特征与先进的大语言模型正确对齐，可以拥有 GPT-4 所展示的众多先进多模态能力，例如生成详细的图像描述和根据手绘草图创建网站。此外，我们还观察到 MiniGPT-4 具备其他新兴能力，包括根据给定图像创作故事和诗歌、根据食物照片教用户烹饪等。在我们的实验中，我们发现使用简短图像-标题对训练的模型可能会产生不自然的语言输出（例如，重复和碎片化）。为了解决这个问题，我们在第二阶段整理了一个详细的图像描述数据集来微调模型，从而提高了模型生成的可靠性和整体可用性。我们的代码、预训练模型和收集的数据集可在 https://minigpt-4.github.io/ 获取。

项目资源：
- 项目网站：https://minigpt-4.github.io/
- 代码、预训练模型和数据集：https://github.com/Vision-CAIR/MiniGPT-4

论文地址：https://arxiv.org/abs/2304.10592v2

18 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

MiniGPT-4：增强视觉语言对齐能力的轻量级多模态系统

MiniGPT-4: 利用先进大语言模型增强视觉-语言理解