Video-LLaVA: Learning United Visual Representation by Alignment Before Projection

作者： Bin Lin, Yang Ye, Bin Zhu, Jiaxi Cui, Munan Ning, Peng Jin, Li Yuan

提交/修订日期： 2023年11月16日提交，2024年10月1日修订 (v3)

主题/分类： 计算机视觉与模式识别 (cs.CV)

摘要：
大型视觉语言模型 (LVLM) 提升了各种视觉-语言理解下游任务的性能。大多数现有方法将图像和视频编码到独立的特征空间，然后将其作为输入馈送给大型语言模型 (LLM)。然而，由于缺乏对图像和视频的统一标记化（即投影前的错位），LLM 难以从几个性能不佳的投影层中学习多模态交互。在本工作中，我们将视觉表征统一到语言特征空间中，以推动基础 LLM 向统一的 LVLM 发展。因此，我们建立了一个简单而鲁棒的 LVLM 基线模型——Video-LLaVA，它从图像和视频的混合数据集中学习，两者相互促进。Video-LLaVA 在广泛的 9 个图像基准测试中取得了卓越的性能，涵盖 5 个图像问答数据集和 4 个图像基准测试工具包。此外，我们的 Video-LLaVA 在 MSRVTT、MSVD、TGIF 和 ActivityNet 数据集上也分别以 5.8%、9.9%、18.6% 和 10.1% 的优势超越了 Video-ChatGPT。值得注意的是，大量实验表明，Video-LLaVA 在统一的视觉表征下，使图像和视频任务相互受益，其性能超过了专门为图像或视频设计的模型。我们希望这项工作能为 LLM 的多模态输入提供一些见解。

代码地址： https://github.com/PKU-YuanGroup/Video-LLaVA

论文地址：https://arxiv.org/abs/2311.10122

9 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

Video-LLaVA：统一视频与图像理解的视觉语言助手

Video-LLaVA: Learning United Visual Representation by Alignment Before Projection