作者: Wenliang Dai, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Junqi Zhao, Weisheng Wang, Boyang Li, Pascale Fung, Steven Hoi
提交日期: 2023年5月11日 (v1),2023年6月15日修订 (v2)
摘要:
大规模预训练和指令微调已成功创建了具备广泛能力的通用语言模型。然而,由于额外的视觉输入带来的丰富输入分布和任务多样性,构建通用的视觉语言模型具有挑战性。尽管视觉语言预训练已被广泛研究,但视觉语言指令微调仍未被充分探索。本文基于预训练的 BLIP-2 模型,对视觉语言指令微调进行了系统而全面的研究。我们收集了 26 个公开可用的数据集,涵盖了广泛的任务和能力,并将它们转换为指令微调格式。此外,我们引入了一个指令感知的查询变换器,它能根据给定的指令提取信息丰富的特征。在 13 个保留的训练数据集上进行训练后,InstructBLIP 在所有 13 个保留的测试数据集上实现了最先进的零样本性能,显著优于 BLIP-2 和更大的 Flamingo 模型。我们的模型在对单个下游任务进行微调时也达到了最先进的性能(例如,在包含图像上下文的 ScienceQA 问题上达到 90.7% 的准确率)。此外,我们定性地展示了 InstructBLIP 相对于同期多模态模型的优势。所有 InstructBLIP 模型已在 https://github.com/salesforce/LAVIS/tree/main/projects/instructblip 开源。
主题/分类:
- 计算机视觉与模式识别 (cs.CV)
- 机器学习 (cs.LG)
arXiv ID: 2305.06500