OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2311.10122

Video-LLaVA:统一视频与图像理解的视觉语言助手

 
  three ·  2026-04-17 11:01:25 · 9 次点击  · 0 条评论  

Video-LLaVA: Learning United Visual Representation by Alignment Before Projection

作者: Bin Lin, Yang Ye, Bin Zhu, Jiaxi Cui, Munan Ning, Peng Jin, Li Yuan

提交/修订日期: 2023年11月16日提交,2024年10月1日修订 (v3)

主题/分类: 计算机视觉与模式识别 (cs.CV)

摘要:
大型视觉语言模型 (LVLM) 提升了各种视觉-语言理解下游任务的性能。大多数现有方法将图像和视频编码到独立的特征空间,然后将其作为输入馈送给大型语言模型 (LLM)。然而,由于缺乏对图像和视频的统一标记化(即投影前的错位),LLM 难以从几个性能不佳的投影层中学习多模态交互。在本工作中,我们将视觉表征统一到语言特征空间中,以推动基础 LLM 向统一的 LVLM 发展。因此,我们建立了一个简单而鲁棒的 LVLM 基线模型——Video-LLaVA,它从图像和视频的混合数据集中学习,两者相互促进。Video-LLaVA 在广泛的 9 个图像基准测试中取得了卓越的性能,涵盖 5 个图像问答数据集和 4 个图像基准测试工具包。此外,我们的 Video-LLaVA 在 MSRVTT、MSVD、TGIF 和 ActivityNet 数据集上也分别以 5.8%、9.9%、18.6% 和 10.1% 的优势超越了 Video-ChatGPT。值得注意的是,大量实验表明,Video-LLaVA 在统一的视觉表征下,使图像和视频任务相互受益,其性能超过了专门为图像或视频设计的模型。我们希望这项工作能为 LLM 的多模态输入提供一些见解。

代码地址: https://github.com/PKU-YuanGroup/Video-LLaVA

9 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 10 ms
Developed with Cursor