作者: Junnan Li, Dongxu Li, Silvio Savarese, Steven Hoi
提交日期: 2023年1月30日
最后修订日期: 2023年6月15日
主题: 计算机视觉与模式识别 (cs.CV)
摘要:
大规模模型的端到端训练使得视觉-语言预训练的成本日益高昂。本文提出了BLIP-2,一种通用且高效的预训练策略,它利用现成的、冻结的预训练图像编码器和冻结的大语言模型来引导视觉-语言预训练。BLIP-2通过一个轻量级的查询变换器(Querying Transformer)来弥合模态间的差距,该变换器分两个阶段进行预训练。第一阶段从一个冻结的图像编码器引导视觉-语言表征学习。第二阶段从一个冻结的语言模型引导视觉到语言的生成学习。尽管可训练参数显著少于现有方法,BLIP-2在各种视觉-语言任务上仍达到了最先进的性能。例如,我们的模型在零样本VQAv2任务上以54倍更少的可训练参数,性能超过了Flamingo80B模型8.7%。我们还展示了该模型在遵循自然语言指令的零样本图像到文本生成方面的新兴能力。