OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2304.10592

MiniGPT-4:对齐视觉编码器与大语言模型实现多模态对话

 
  hero ·  2026-03-20 11:01:21 · 2 次点击  · 0 条评论  

MiniGPT-4: 利用先进大语言模型增强视觉-语言理解

作者: Deyao Zhu, Jun Chen, Xiaoqian Shen, Xiang Li, Mohamed Elhoseiny

提交日期: 2023年4月20日 (v1), 2023年10月2日修订 (v2)

主题分类: 计算机视觉与模式识别 (cs.CV)

摘要:
最近的GPT-4展示了非凡的多模态能力,例如直接从手写文本生成网站以及识别图像中的幽默元素。这些功能在以往的视觉-语言模型中很少见。然而,GPT-4背后的技术细节仍未公开。我们认为,GPT-4增强的多模态生成能力源于对复杂大语言模型(LLM)的利用。为了研究这一现象,我们提出了MiniGPT-4,它使用一个投影层将冻结的视觉编码器与冻结的先进LLM(Vicuna)对齐。我们的工作首次揭示,将视觉特征与先进的大语言模型进行适当对齐,可以具备GPT-4所展示的许多先进多模态能力,例如详细的图像描述生成和从手绘草稿创建网站。此外,我们还在MiniGPT-4中观察到了其他新兴能力,包括根据给定图像创作故事和诗歌、根据食物照片教用户烹饪等。在我们的实验中,我们发现,在简短的图像-标题对数据集上训练的模型可能会产生不自然的语言输出(例如,重复和碎片化)。为了解决这个问题,我们在第二阶段精心策划了一个详细的图像描述数据集来微调模型,从而提高了模型生成的可靠性和整体可用性。

项目资源:
- 项目网站、代码、预训练模型和收集的数据集可在 https://minigpt-4.github.io/ 获取。
- Deyao Zhu 和 Jun Chen 对这项工作做出了同等贡献。

2 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 13 ms
Developed with Cursor