LLaVA-NeXT: 开源大型多模态模型











发布说明
- [2025/08/29] 🔥 LLaVA-Critic-R1 我们发布了 LLaVA-Critic-R1,这是一个通过 GRPO 使用成对评判数据训练的生成式评判 VLM 系列。LLaVA-Critic-R1 不仅展示了强大的评判能力,还在 7B 规模上实现了最先进的策略性能。更多训练细节请参考 LLaVA-Critic-R1。
📄 了解更多:
- LLaVA-Critic-GRPO 数据集:下载数据集。
- LLaVA-Critic-R1-7B:基于 Qwen-2.5-VL-7B 训练的 LLaVA-Critic-R1。
- LLaVA-Critic-R1-7B-Plus-Qwen:基于 ThinkLite-VL-7B 训练的 LLaVA-Critic-R1+。
- LLaVA-Critic-R1-7B-Plus-Mimo:基于 MiMo-VL-7B-RL-2508 训练的 LLaVA-Critic-R1+。
- LLaVA-Critic-R1-7B-Plus-LLaMA32v:基于 Llama-3.2-11B-Vision-Instruct 训练的 LLaVA-Critic-R1+。
- 论文:关于 LLaVA-Critic-R1 的详细信息。
- [2024/10/04] 🔥 LLaVA-Video(原 LLaVA-NeXT-Video)迎来重大升级!我们很高兴发布 LLaVA-Video-178K,这是一个用于视频指令微调的高质量合成数据集。该数据集包含:
- 178,510 条描述条目
- 960,792 对开放式问答
- 196,198 项多项选择问答
与此同时,我们还发布了 LLaVA-Video 7B/72B 模型,这些模型在最新的视频基准测试中表现出色,包括 Video-MME、LongVideoBench 和 Dream-1K。
📄 了解更多:
- LLaVA-Video-178K 数据集:下载数据集。
- LLaVA-Video 模型:获取模型检查点。
- 论文:关于 LLaVA-Video 的详细信息。
- LLaVA-Video 文档:训练、推理和评估指南。

- [2024/08/06] 🔥 🚀 LLaVA-OneVision (OV)! 新的 LLaVA-OV 模型(0.5B/7B/72B)在单图像、多图像和视频基准测试中均达到新的最先进性能,有时在 47 个多样化基准测试中可与顶级商业模型媲美。📄 了解更多:
- [论文]:深入见解,新兴场景,例如通过图像任务迁移实现强大的视频理解。
- [LLaVA-OV 文档]:模型推理和评估指南。
-
[脚本]:开始在您的单图像/多图像/视频数据上训练模型。
-
[2024/07/16] 🔥 LLaVA-NeXT-Video 已升级。新的 32B 模型在多个视频基准测试中取得了最佳开源性能,包括 Video-MME。详情请参阅此页面,演示请参阅 llava_next-video_demo。
-
[2024/06/23] 🔥 LLaVA-NeXT-Interleave 发布。我们利用图像-文本交错格式统一了多图像、视频和 3D 任务于一个 LLM 中,并在广泛的基准测试中实现了 SoTA 性能。查看论文、博客和模型检查点,了解新功能和改进的性能!我们已发布 0.5b、7b 和 7b-dpo 模型。
- 一个适用于多图像、视频和 3D 的全能 LLM,性能强大 [演示]
- 构建交错训练数据 M4-Instruct
-
构建多图像基准测试 LLaVA-Interleave Bench
-
[2024/05/25] 🔥 想知道"除了数据,视觉指令微调还受什么影响?" 我们的新博客总结了除指令数据本身外,在改进 LMM 时对各种设计选择进行的实证探索。同时,开源了使用 LLaVA-NeXT-34B 重新标注的高质量数据:[COCO] [LCS] [CC3M]。
- 架构(LMM 和视觉编码器)
- 视觉表示(分辨率和令牌数量)
-
训练策略(高质量数据和可训练模块)
-
[2024/05/10] 🔥 LLaVA-NeXT(更强)模型发布,支持更强的 LMM,包括 LLama-3 (8B) 和 Qwen-1.5 (72B/110B)。查看[博客]和[模型检查点]以了解性能提升!
- [2024/05/10] 🔥 LLaVA-NeXT(视频)发布。仅用图像训练的 LLaVA-NeXT 模型在视频任务上表现出惊人的零样本模态迁移能力。通过 AI 反馈对视频进行 DPO 训练可以带来显著改进。[博客]、[模型检查点] 和 [sglang]
- [2024/01/30] 🔥 LLaVA-NeXT 发布!在 LLaVA-1.5 的基础上进一步扩展,LLaVA-NeXT-34B 在某些基准测试中超越了 Gemini Pro。现在它可以处理 4 倍多的像素,并执行比以前更多的任务/应用。查看博客文章,并探索演示!模型可在模型库中找到。训练/评估数据和脚本即将发布。
更多
- [2024/03/10] 🔥 发布 **LMMs-Eval**,这是我们在开发 LLaVA-NeXT 时使用的高效评估流水线。它支持在数十个公共数据集上评估 LMM,并允许新数据集接入,使新 LMM 的开发速度大大加快。[[博客](https://lmms-lab.github.io/lmms-eval-blog/lmms-eval-0.1/)] [[代码库](https://github.com/EvolvingLMMs-Lab/lmms-eval)]
- [2023/11/10] [LLaVA-Plus](https://llava-vl.github.io/llava-plus/) 发布:学习使用工具创建多模态智能体,LLaVA-Plus(即插即用并学习使用技能的 LLaVA)。[[项目页面](https://llava-vl.github.io/llava-plus/)] [[演示](https://llavaplus.ngrok.io/)] [[代码](https://github.com/LLaVA-VL/LLaVA-Plus-Codebase)] [[论文](https://arxiv.org/abs/2311.05437)]
- [2023/11/02] [LLaVA-Interactive](https://llava-vl.github.io/llava-interactive/) 发布:通过一个集图像聊天、分割、生成和编辑于一体的演示,体验未来的人机多模态交互。[[项目页面](https://llava-vl.github.io/llava-interactive/)] [[演示](https://llavainteractive.ngrok.io/)] [[代码](https://github.com/LLaVA-VL/LLaVA-Interactive-Demo)] [[论文](https://arxiv.org/abs/2311.00571)]
- [2023/10/26] 🔥 LLaVA-1.5 使用 LoRA 实现了与全模型微调相当的性能,同时降低了 GPU 内存需求([检查点](https://github.com/haotian-liu/LLaVA/blob/main/docs/MODEL_ZOO.md#llava-v15),[脚本](https://github.com/haotian-liu/LLaVA#train))。我们还提供了一个[文档](https://github.com/haotian-liu/LLaVA/blob/main/docs/Finetune_Custom_Data.md),介绍如何使用 LoRA 在您自己的数据集上微调 LLaVA-1.5。
- [2023/10/12] 查看由 ETRI 创建的韩语 LLaVA (Ko-LLaVA),他们慷慨地支持了我们的研究]
- [2023/10/05] 🔥 LLaVA-1.5 发布!在 11 个基准测试中达到 SoTA,仅对原始 LLaVA 进行简单修改,利用所有公共数据,在单个 8-A100 节点上约 1 天完成训练,并超越了使用数十亿规模数据的 Qwen-VL-Chat 等方法。查看[技术报告](https://arxiv.org/abs/2310.03744),并探索[演示](https://llava.hliu.cc/)!模型可在[模型库](https://github.com/haotian-liu/LLaVA/blob/main/docs/MODEL_ZOO.md)中找到。LLaVA-1.5 的训练数据和脚本已发布[在此处](https://github.com/haotian-liu/LLaVA#train),评估脚本已发布[在此处](https://github.com/haotian-liu/LLaVA/blob/main/docs/Evaluation.md)!
- [2023/09/26] LLaVA 通过人类反馈强化学习(RLHF)进行改进,以提高事实依据并减少幻觉。查看项目 [[LLavA-RLHF]](https://llava-rlhf.github.io/) 中的新 SFT 和 RLHF 检查点。
- [2023/09/22] [LLaVA](https://arxiv.org/abs/2304.08485) 被 NeurIPS 2023 接受为**口头报告**,[LLaVA-Med](https://arxiv.org/abs/2306.00890) 被 NeurIPS 2023 数据集和基准测试轨道接受为**亮点报告**。
- [2023/11/06] 支持 **Intel** dGPU 和 CPU 平台。[更多详情请见此处。](https://github.com/haotian-liu/LLaVA/tree/intel/docs/intel)
- [2023/10/12] LLaVA 现在在 [llama.cpp](https://github.com/ggerganov/llama.cpp/pull/3436) 中得到支持,并支持 4 位/5 位量化!
- [2023/10/11] LLaVA-1.5 的训练数据和脚本已发布[在此处](https://github.com/haotian-liu/LLaVA#train),评估脚本已发布[在此处](https://github.com/haotian-liu/LLaVA/blob/main/docs/Evaluation.md)!
- [2023/10/10] [Roboflow 深度解析](https://blog.roboflow.com/first-impressions-with-llava-1-5/):LLaVA-1.5 初印象。
- [2023/09/20] 我们在[笔记](https://arxiv.org/abs/2309.09958)中总结了训练 33B 和 65B LLaVA 模型的实证研究。此外,如果您对多模态基础模型的全面综述、演变和趋势感兴趣,请查看我们最近的综述论文[“多模态基础模型:从专家到通用助手”](https://arxiv.org/abs/2309.10020)。