作者: Deyao Zhu, Jun Chen, Xiaoqian Shen, Xiang Li, Mohamed Elhoseiny
提交/修订日期: 2023年4月20日提交,2023年10月2日修订 (v2)
主题/分类: 计算机视觉与模式识别 (cs.CV)
摘要:
最近的 GPT-4 展示了非凡的多模态能力,例如直接从手写文本生成网站,以及识别图像中的幽默元素。这些功能在以往的视觉-语言模型中很少见。然而,GPT-4 背后的技术细节仍未公开。我们认为,GPT-4 增强的多模态生成能力源于对复杂大语言模型 (LLM) 的利用。为了研究这一现象,我们提出了 MiniGPT-4,它通过一个投影层将冻结的视觉编码器与冻结的先进 LLM(Vicuna)对齐。我们的工作首次揭示,将视觉特征与先进的大语言模型正确对齐,可以拥有 GPT-4 所展示的众多先进多模态能力,例如生成详细的图像描述和根据手绘草图创建网站。此外,我们还观察到 MiniGPT-4 具备其他新兴能力,包括根据给定图像创作故事和诗歌、根据食物照片教用户烹饪等。在我们的实验中,我们发现使用简短图像-标题对训练的模型可能会产生不自然的语言输出(例如,重复和碎片化)。为了解决这个问题,我们在第二阶段整理了一个详细的图像描述数据集来微调模型,从而提高了模型生成的可靠性和整体可用性。我们的代码、预训练模型和收集的数据集可在 https://minigpt-4.github.io/ 获取。
项目资源:
- 项目网站:https://minigpt-4.github.io/
- 代码、预训练模型和数据集:https://github.com/Vision-CAIR/MiniGPT-4