MiniGPT-4: 利用先进大语言模型增强视觉-语言理解

作者: Deyao Zhu, Jun Chen, Xiaoqian Shen, Xiang Li, Mohamed Elhoseiny

提交日期: 2023年4月20日 (v1)， 2023年10月2日修订 (v2)

主题分类: 计算机视觉与模式识别 (cs.CV)

摘要:
最近的GPT-4展示了非凡的多模态能力，例如直接从手写文本生成网站以及识别图像中的幽默元素。这些功能在以往的视觉-语言模型中很少见。然而，GPT-4背后的技术细节仍未公开。我们认为，GPT-4增强的多模态生成能力源于对复杂大语言模型（LLM）的利用。为了研究这一现象，我们提出了MiniGPT-4，它使用一个投影层将冻结的视觉编码器与冻结的先进LLM（Vicuna）对齐。我们的工作首次揭示，将视觉特征与先进的大语言模型进行适当对齐，可以具备GPT-4所展示的许多先进多模态能力，例如详细的图像描述生成和从手绘草稿创建网站。此外，我们还在MiniGPT-4中观察到了其他新兴能力，包括根据给定图像创作故事和诗歌、根据食物照片教用户烹饪等。在我们的实验中，我们发现，在简短的图像-标题对数据集上训练的模型可能会产生不自然的语言输出（例如，重复和碎片化）。为了解决这个问题，我们在第二阶段精心策划了一个详细的图像描述数据集来微调模型，从而提高了模型生成的可靠性和整体可用性。

项目资源:
- 项目网站、代码、预训练模型和收集的数据集可在 https://minigpt-4.github.io/ 获取。
- Deyao Zhu 和 Jun Chen 对这项工作做出了同等贡献。

论文地址：https://arxiv.org/abs/2304.10592

18 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

MiniGPT-4：对齐视觉编码器与大语言模型实现多模态对话

MiniGPT-4: 利用先进大语言模型增强视觉-语言理解