LocalGPT Vision — 本地图文问答与视觉 RAG 实验项目

npl · 2026-03-31 11:00:22 · 26 次点击 · 0 条评论

多模态大语言模型 (MLLM) 资源精选

✨ NJU-MiG 亮点

🔥🔥 MLLM 综述 | 💬 微信交流群 (MLLM微信交流群)

🌟 统一多模态理解与生成综述：进展与挑战

总计 83页，引用 750+篇文献！

[📖 论文] [🌟 项目]

🌟 MME-Survey: 多模态大语言模型评估综合综述
arXiv 2025, 论文, 项目
多模态大语言模型综述
NSR 2024, 论文, 项目

🔥🔥 VITA 系列全能 MLLMs | 💬 微信交流群 (VITA微信交流群)

🌟 VITA-1.5: 迈向 GPT-4o 级别的实时视觉与语音交互
NeurIPS 2025 Highlight, 论文, 项目
🌟 VITA-VLA: 通过动作专家蒸馏高效教导视觉语言模型行动
arXiv 2025, 论文, 项目
🌟 VITA-E: 具备并发看、听、说、行动能力的自然具身交互
arXiv 2025, 论文, 项目
VITA: 迈向开源交互式全能多模态大语言模型
arXiv 2024, 论文, 项目
Long-VITA: 将大型多模态模型扩展到 100 万 Token，同时保持领先的短上下文精度
arXiv 2025, 论文, 项目
VITA-Audio: 高效大型语音语言模型的快速交错跨模态 Token 生成
NeurIPS 2025, 论文, 项目

🔥🔥 MME 系列 MLLM 基准

🌟 MME-Survey: 多模态大语言模型评估综合综述
arXiv 2025, 论文, 项目
MME: 多模态大语言模型综合评估基准
NeurIPS 2025 DB Highlight, 论文, 数据集, 评估工具, ✒️ 引用
Video-MME: 首个视频分析领域的多模态大语言模型综合评估基准
CVPR 2025, 论文, 项目, 数据集
MME-RealWorld: 你的多模态大语言模型能挑战对人类都困难的高分辨率真实世界场景吗？
ICLR 2025, 论文, 项目, 数据集

目录
- 精选论文
- 多模态指令微调
- 多模态幻觉
- 多模态上下文学习
- 多模态思维链
- LLM 辅助的视觉推理
- 基础模型
- 评估
- 多模态 RLHF
- 其他
- 精选数据集
- 用于对齐的预训练数据集
- 多模态指令微调数据集
- 上下文学习数据集
- 多模态思维链数据集
- 多模态 RLHF 数据集
- 评估基准
- 其他

精选论文

多模态指令微调

标题	会议/期刊	日期	代码	演示
Qwen3.5-Omni: Scaling Up, Toward Native Omni-Modal AGI	博客	2026-03-30	-	演示
Xiaomi MiMo-V2-Omni	博客	2026-03-18	-	-
InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing	arXiv	2026-03-10	Github	本地演示
Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion	arXiv	2026-03-06	Github	-
Beyond Language Modeling: An Exploration of Multimodal Pretraining	arXiv	2026-03-03	-	-
Gemini 3.1 Pro: A smarter model for your most complex tasks	博客	2026-02-19	-	-
Qwen3.5: Towards Native Multimodal Agents	博客	2026-02-16	Github	演示
MiniCPM-o 4.5	博客	2026-02-06	Github	演示
DeepSeek-OCR 2: Visual Causal Flow	DeepSeek	2026-01-27	Github	-
Seed1.8 Model Card: Towards Generalized Real-World Agency	Bytedance Seed	2025-12-18	-	-
Introducing GPT-5.2	OpenAI	2025-12-11	-	-
Introducing Mistral 3	博客	2025-12-02	Huggingface	-
Qwen3-VL Technical Report	arXiv	2025-11-26	Github	演示
Emu3.5: Native Multimodal Models are World Learners	arXiv	2025-10-30	Github	-
VITA-E: Natural Embodied Interaction with Concurrent Seeing, Hearing, Speaking, and Acting	arXiv	2025-10-21	Github	本地演示
DeepSeek-OCR: Contexts Optical Compression	arXiv	2025-10-21	Github	-
OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM	arXiv	2025-10-17	Github	-
NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching	arXiv	2025-10-16	-	-
InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue	arXiv	2025-10-15	Github	-
VITA-VLA: Efficiently Teaching Vision-Language Models to Act via Action Expert Distillation	arXiv	2025-10-10	Github	-
LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal Training	arXiv	2025-10-09	Github	演示
Qwen3-Omni Technical Report	arXiv	2025-09-22	Github	演示
InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency	arXiv	2025-08-27	Github	演示
MiniCPM-V 4.5: A GPT-4o Level MLLM for Single Image, Multi Image and Video Understanding on Your Phone	-	2025-08-26	Github	演示
Thyme: Think Beyond Images	arXiv	2025-08-18	Github	演示
Introducing GPT-5	OpenAI	2025-08-07	-	-
dots.vlm1	rednote-hilab	2025-08-06	Github	演示
Step3: Cost-Effective Multimodal Intelligence	StepFun	2025-07-31	Github	演示
![Star](https://img.shields.io/github/stars/THUDM/GLM-4.1V-Thinking.svg?style=social&label=

项目地址：https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

26 次点击 ∙ 0 人收藏

登录后收藏

0 条回复