Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding

作者: Hang Zhang, Xin Li, Lidong Bing

摘要:
本文提出了 Video-LLaMA，这是一个多模态框架，旨在赋予大型语言模型（LLMs）理解视频中视觉和听觉内容的能力。Video-LLaMA 通过利用冻结的预训练视觉/音频编码器和冻结的 LLMs 来启动跨模态训练。与以往仅让 LLMs 处理视觉或音频信号的工作不同，Video-LLaMA 通过解决两个挑战来实现视频理解：(1) 捕捉视觉场景中的时序变化；(2) 整合视听信号。针对第一个挑战，我们提出了一个 Video Q-former，将预训练的图像编码器组装成我们的视频编码器，并引入视频到文本生成任务来学习视频-语言对应关系。针对第二个挑战，我们利用 ImageBind（一个对齐多种模态的通用嵌入模型）作为预训练的音频编码器，并在其之上引入一个 Audio Q-former，为 LLM 模块学习合理的听觉查询嵌入。为了使视觉和音频编码器的输出与 LLM 的嵌入空间对齐，我们首先在海量的视频/图像-描述对数据上训练 Video-LLaMA，然后用数量适中但质量更高的视觉指令数据集对我们的模型进行微调。我们发现 Video-LLaMA 展现出感知和理解视频内容，并基于视频中呈现的视觉和听觉信息生成有意义回应的能力。

主题/分类:
- 计算与语言 (cs.CL)
- 计算机视觉与模式识别 (cs.CV)
- 声音 (cs.SD)
- 音频与语音处理 (eess.AS)

备注:
已被 EMNLP 2023 的演示轨道接收。代码、预训练模型和数据集已公开。

提交历史:
- 提交于 2023年6月5日
- 最后修订于 2023年10月25日 (当前版本 v4)

论文地址：https://arxiv.org/abs/2306.02858

30 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

Video-LLaMA：面向视频理解与对话的大型语言视觉模型

Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding