作者: Deyao Zhu, Jun Chen, Xiaoqian Shen, Xiang Li, Mohamed Elhoseiny
提交日期: 2023年4月20日 (v1), 2023年10月2日修订 (v2)
主题分类: 计算机视觉与模式识别 (cs.CV)
摘要:
最近的GPT-4展示了非凡的多模态能力,例如直接从手写文本生成网站以及识别图像中的幽默元素。这些功能在以往的视觉-语言模型中很少见。然而,GPT-4背后的技术细节仍未公开。我们认为,GPT-4增强的多模态生成能力源于对复杂大语言模型(LLM)的利用。为了研究这一现象,我们提出了MiniGPT-4,它使用一个投影层将冻结的视觉编码器与冻结的先进LLM(Vicuna)对齐。我们的工作首次揭示,将视觉特征与先进的大语言模型进行适当对齐,可以具备GPT-4所展示的许多先进多模态能力,例如详细的图像描述生成和从手绘草稿创建网站。此外,我们还在MiniGPT-4中观察到了其他新兴能力,包括根据给定图像创作故事和诗歌、根据食物照片教用户烹饪等。在我们的实验中,我们发现,在简短的图像-标题对数据集上训练的模型可能会产生不自然的语言输出(例如,重复和碎片化)。为了解决这个问题,我们在第二阶段精心策划了一个详细的图像描述数据集来微调模型,从而提高了模型生成的可靠性和整体可用性。
项目资源:
- 项目网站、代码、预训练模型和收集的数据集可在 https://minigpt-4.github.io/ 获取。
- Deyao Zhu 和 Jun Chen 对这项工作做出了同等贡献。