LLaVA-NeXT: 开源大型多模态模型

发布说明

[2025/08/29] 🔥 LLaVA-Critic-R1 我们发布了 LLaVA-Critic-R1，这是一个通过 GRPO 使用成对评判数据训练的生成式评判 VLM 系列。LLaVA-Critic-R1 不仅展示了强大的评判能力，还在 7B 规模上实现了最先进的策略性能。更多训练细节请参考 LLaVA-Critic-R1。

📄 了解更多：
- LLaVA-Critic-GRPO 数据集：下载数据集。
- LLaVA-Critic-R1-7B：基于 Qwen-2.5-VL-7B 训练的 LLaVA-Critic-R1。
- LLaVA-Critic-R1-7B-Plus-Qwen：基于 ThinkLite-VL-7B 训练的 LLaVA-Critic-R1+。
- LLaVA-Critic-R1-7B-Plus-Mimo：基于 MiMo-VL-7B-RL-2508 训练的 LLaVA-Critic-R1+。
- LLaVA-Critic-R1-7B-Plus-LLaMA32v：基于 Llama-3.2-11B-Vision-Instruct 训练的 LLaVA-Critic-R1+。
- 论文：关于 LLaVA-Critic-R1 的详细信息。

[2024/10/04] 🔥 LLaVA-Video（原 LLaVA-NeXT-Video）迎来重大升级！我们很高兴发布 LLaVA-Video-178K，这是一个用于视频指令微调的高质量合成数据集。该数据集包含：
178,510 条描述条目
960,792 对开放式问答
196,198 项多项选择问答

与此同时，我们还发布了 LLaVA-Video 7B/72B 模型，这些模型在最新的视频基准测试中表现出色，包括 Video-MME、LongVideoBench 和 Dream-1K。

📄 了解更多：
- LLaVA-Video-178K 数据集：下载数据集。
- LLaVA-Video 模型：获取模型检查点。
- 论文：关于 LLaVA-Video 的详细信息。
- LLaVA-Video 文档：训练、推理和评估指南。

[2024/09/13] 🔥 🚀 LLaVA-OneVision-Chat。新的 LLaVA-OV-Chat（7B/72B）显著提升了 LLaVA-OV 的对话体验。📄

[2024/08/06] 🔥 🚀 LLaVA-OneVision (OV)！ 新的 LLaVA-OV 模型（0.5B/7B/72B）在单图像、多图像和视频基准测试中均达到新的最先进性能，有时在 47 个多样化基准测试中可与顶级商业模型媲美。📄 了解更多：
[论文]：深入见解，新兴场景，例如通过图像任务迁移实现强大的视频理解。
[LLaVA-OV 文档]：模型推理和评估指南。
[脚本]：开始在您的单图像/多图像/视频数据上训练模型。
[2024/07/16] 🔥 LLaVA-NeXT-Video 已升级。新的 32B 模型在多个视频基准测试中取得了最佳开源性能，包括 Video-MME。详情请参阅此页面，演示请参阅 llava_next-video_demo。
[2024/06/23] 🔥 LLaVA-NeXT-Interleave 发布。我们利用图像-文本交错格式统一了多图像、视频和 3D 任务于一个 LLM 中，并在广泛的基准测试中实现了 SoTA 性能。查看论文、博客和模型检查点，了解新功能和改进的性能！我们已发布 0.5b、7b 和 7b-dpo 模型。
一个适用于多图像、视频和 3D 的全能 LLM，性能强大 [演示]
构建交错训练数据 M4-Instruct
构建多图像基准测试 LLaVA-Interleave Bench
[2024/05/25] 🔥 想知道"除了数据，视觉指令微调还受什么影响？" 我们的新博客总结了除指令数据本身外，在改进 LMM 时对各种设计选择进行的实证探索。同时，开源了使用 LLaVA-NeXT-34B 重新标注的高质量数据：[COCO] [LCS] [CC3M]。
架构（LMM 和视觉编码器）
视觉表示（分辨率和令牌数量）
训练策略（高质量数据和可训练模块）
[2024/05/10] 🔥 LLaVA-NeXT（更强）模型发布，支持更强的 LMM，包括 LLama-3 (8B) 和 Qwen-1.5 (72B/110B)。查看[博客]和[模型检查点]以了解性能提升！
[2024/05/10] 🔥 LLaVA-NeXT（视频）发布。仅用图像训练的 LLaVA-NeXT 模型在视频任务上表现出惊人的零样本模态迁移能力。通过 AI 反馈对视频进行 DPO 训练可以带来显著改进。[博客]、[模型检查点] 和 [sglang]
[2024/01/30] 🔥 LLaVA-NeXT 发布！在 LLaVA-1.5 的基础上进一步扩展，LLaVA-NeXT-34B 在某些基准测试中超越了 Gemini Pro。现在它可以处理 4 倍多的像素，并执行比以前更多的任务/应用。查看博客文章，并探索演示！模型可在模型库中找到。训练/评估数据和脚本即将发布。

- [2024/03/10] 🔥 发布 **LMMs-Eval**，这是我们在开发 LLaVA-NeXT 时使用的高效评估流水线。它支持在数十个公共数据集上评估 LMM，并允许新数据集接入，使新 LMM 的开发速度大大加快。[[博客](https://lmms-lab.github.io/lmms-eval-blog/lmms-eval-0.1/)] [[代码库](https://github.com/EvolvingLMMs-Lab/lmms-eval)] - [2023/11/10] [LLaVA-Plus](https://llava-vl.github.io/llava-plus/) 发布：学习使用工具创建多模态智能体，LLaVA-Plus（即插即用并学习使用技能的 LLaVA）。[[项目页面](https://llava-vl.github.io/llava-plus/)] [[演示](https://llavaplus.ngrok.io/)] [[代码](https://github.com/LLaVA-VL/LLaVA-Plus-Codebase)] [[论文](https://arxiv.org/abs/2311.05437)] - [2023/11/02] [LLaVA-Interactive](https://llava-vl.github.io/llava-interactive/) 发布：通过一个集图像聊天、分割、生成和编辑于一体的演示，体验未来的人机多模态交互。[[项目页面](https://llava-vl.github.io/llava-interactive/)] [[演示](https://llavainteractive.ngrok.io/)] [[代码](https://github.com/LLaVA-VL/LLaVA-Interactive-Demo)] [[论文](https://arxiv.org/abs/2311.00571)] - [2023/10/26] 🔥 LLaVA-1.5 使用 LoRA 实现了与全模型微调相当的性能，同时降低了 GPU 内存需求（[检查点](https://github.com/haotian-liu/LLaVA/blob/main/docs/MODEL_ZOO.md#llava-v15)，[脚本](https://github.com/haotian-liu/LLaVA#train)）。我们还提供了一个[文档](https://github.com/haotian-liu/LLaVA/blob/main/docs/Finetune_Custom_Data.md)，介绍如何使用 LoRA 在您自己的数据集上微调 LLaVA-1.5。 - [2023/10/12] 查看由 ETRI 创建的韩语 LLaVA (Ko-LLaVA)，他们慷慨地支持了我们的研究！[[🤗 演示](https://huggingface.co/spaces/etri-vilab/Ko-LLaVA)] - [2023/10/05] 🔥 LLaVA-1.5 发布！在 11 个基准测试中达到 SoTA，仅对原始 LLaVA 进行简单修改，利用所有公共数据，在单个 8-A100 节点上约 1 天完成训练，并超越了使用数十亿规模数据的 Qwen-VL-Chat 等方法。查看[技术报告](https://arxiv.org/abs/2310.03744)，并探索[演示](https://llava.hliu.cc/)！模型可在[模型库](https://github.com/haotian-liu/LLaVA/blob/main/docs/MODEL_ZOO.md)中找到。LLaVA-1.5 的训练数据和脚本已发布[在此处](https://github.com/haotian-liu/LLaVA#train)，评估脚本已发布[在此处](https://github.com/haotian-liu/LLaVA/blob/main/docs/Evaluation.md)！ - [2023/09/26] LLaVA 通过人类反馈强化学习（RLHF）进行改进，以提高事实依据并减少幻觉。查看项目 [[LLavA-RLHF]](https://llava-rlhf.github.io/) 中的新 SFT 和 RLHF 检查点。 - [2023/09/22] [LLaVA](https://arxiv.org/abs/2304.08485) 被 NeurIPS 2023 接受为**口头报告**，[LLaVA-Med](https://arxiv.org/abs/2306.00890) 被 NeurIPS 2023 数据集和基准测试轨道接受为**亮点报告**。 - [2023/11/06] 支持 **Intel** dGPU 和 CPU 平台。[更多详情请见此处。](https://github.com/haotian-liu/LLaVA/tree/intel/docs/intel) - [2023/10/12] LLaVA 现在在 [llama.cpp](https://github.com/ggerganov/llama.cpp/pull/3436) 中得到支持，并支持 4 位/5 位量化！ - [2023/10/11] LLaVA-1.5 的训练数据和脚本已发布[在此处](https://github.com/haotian-liu/LLaVA#train)，评估脚本已发布[在此处](https://github.com/haotian-liu/LLaVA/blob/main/docs/Evaluation.md)！ - [2023/10/10] [Roboflow 深度解析](https://blog.roboflow.com/first-impressions-with-llava-1-5/)：LLaVA-1.5 初印象。 - [2023/09/20] 我们在[笔记](https://arxiv.org/abs/2309.09958)中总结了训练 33B 和 65B LLaVA 模型的实证研究。此外，如果您对多模态基础模型的全面综述、演变和趋势感兴趣，请查看我们最近的综述论文[“多模态基础模型：从专家到通用助手”](https://arxiv.org/abs/2309.10020)。

项目地址：https://github.com/LLaVA-VL/LLaVA-NeXT

23 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

LLaVA-NeXT — 新一代开源视觉语言模型项目

LLaVA-NeXT: 开源大型多模态模型

发布说明