作者: Bin Lin, Yang Ye, Bin Zhu, Jiaxi Cui, Munan Ning, Peng Jin, Li Yuan
提交/修订日期: 2023年11月16日提交,2024年10月1日修订 (v3)
主题/分类: 计算机视觉与模式识别 (cs.CV)
摘要:
大型视觉语言模型 (LVLM) 提升了各种视觉-语言理解下游任务的性能。大多数现有方法将图像和视频编码到独立的特征空间,然后将其作为输入馈送给大型语言模型 (LLM)。然而,由于缺乏对图像和视频的统一标记化(即投影前的错位),LLM 难以从几个性能不佳的投影层中学习多模态交互。在本工作中,我们将视觉表征统一到语言特征空间中,以推动基础 LLM 向统一的 LVLM 发展。因此,我们建立了一个简单而鲁棒的 LVLM 基线模型——Video-LLaVA,它从图像和视频的混合数据集中学习,两者相互促进。Video-LLaVA 在广泛的 9 个图像基准测试中取得了卓越的性能,涵盖 5 个图像问答数据集和 4 个图像基准测试工具包。此外,我们的 Video-LLaVA 在 MSRVTT、MSVD、TGIF 和 ActivityNet 数据集上也分别以 5.8%、9.9%、18.6% 和 10.1% 的优势超越了 Video-ChatGPT。值得注意的是,大量实验表明,Video-LLaVA 在统一的视觉表征下,使图像和视频任务相互受益,其性能超过了专门为图像或视频设计的模型。我们希望这项工作能为 LLM 的多模态输入提供一些见解。
代码地址: https://github.com/PKU-YuanGroup/Video-LLaVA