BLIP-2: 利用冻结图像编码器与大语言模型引导视觉-语言预训练

作者: Junnan Li, Dongxu Li, Silvio Savarese, Steven Hoi

提交日期: 2023年1月30日
最后修订日期: 2023年6月15日

主题: 计算机视觉与模式识别 (cs.CV)

摘要:
大规模模型的端到端训练使得视觉-语言预训练的成本日益高昂。本文提出了BLIP-2，一种通用且高效的预训练策略，它利用现成的、冻结的预训练图像编码器和冻结的大语言模型来引导视觉-语言预训练。BLIP-2通过一个轻量级的查询变换器（Querying Transformer）来弥合模态间的差距，该变换器分两个阶段进行预训练。第一阶段从一个冻结的图像编码器引导视觉-语言表征学习。第二阶段从一个冻结的语言模型引导视觉到语言的生成学习。尽管可训练参数显著少于现有方法，BLIP-2在各种视觉-语言任务上仍达到了最先进的性能。例如，我们的模型在零样本VQAv2任务上以54倍更少的可训练参数，性能超过了Flamingo80B模型8.7%。我们还展示了该模型在遵循自然语言指令的零样本图像到文本生成方面的新兴能力。

论文地址：https://arxiv.org/abs/2301.12597

17 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

BLIP-2：轻量连接视觉模型与大语言模型的多模态预训练方法

BLIP-2: 利用冻结图像编码器与大语言模型引导视觉-语言预训练