OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  代码  ›  LocalGPT Vision — 本地图文问答与视觉 RAG 实验项目

LocalGPT Vision — 本地图文问答与视觉 RAG 实验项目

 
  npl ·  2026-03-31 11:00:22 · 2 次点击  · 0 条评论  

多模态大语言模型 (MLLM) 资源精选

✨ NJU-MiG 亮点

🔥🔥 MLLM 综述 | 💬 微信交流群 (MLLM微信交流群)

  • 🌟 统一多模态理解与生成综述:进展与挑战

总计 83页,引用 750+篇文献

  • 🌟 MME-Survey: 多模态大语言模型评估综合综述
    arXiv 2025, 论文, 项目

  • 多模态大语言模型综述
    NSR 2024, 论文, 项目


🔥🔥 VITA 系列全能 MLLMs | 💬 微信交流群 (VITA微信交流群)

  • 🌟 VITA-1.5: 迈向 GPT-4o 级别的实时视觉与语音交互
    NeurIPS 2025 Highlight, 论文, 项目

  • 🌟 VITA-VLA: 通过动作专家蒸馏高效教导视觉语言模型行动
    arXiv 2025, 论文, 项目

  • 🌟 VITA-E: 具备并发看、听、说、行动能力的自然具身交互
    arXiv 2025, 论文, 项目

  • VITA: 迈向开源交互式全能多模态大语言模型
    arXiv 2024, 论文, 项目

  • Long-VITA: 将大型多模态模型扩展到 100 万 Token,同时保持领先的短上下文精度
    arXiv 2025, 论文, 项目

  • VITA-Audio: 高效大型语音语言模型的快速交错跨模态 Token 生成
    NeurIPS 2025, 论文, 项目


🔥🔥 MME 系列 MLLM 基准

  • 🌟 MME-Survey: 多模态大语言模型评估综合综述
    arXiv 2025, 论文, 项目

  • MME: 多模态大语言模型综合评估基准
    NeurIPS 2025 DB Highlight, 论文, 数据集, 评估工具, ✒️ 引用

  • Video-MME: 首个视频分析领域的多模态大语言模型综合评估基准
    CVPR 2025, 论文, 项目, 数据集

  • MME-RealWorld: 你的多模态大语言模型能挑战对人类都困难的高分辨率真实世界场景吗?
    ICLR 2025, 论文, 项目, 数据集


目录

- 精选论文
- 多模态指令微调
- 多模态幻觉
- 多模态上下文学习
- 多模态思维链
- LLM 辅助的视觉推理
- 基础模型
- 评估
- 多模态 RLHF
- 其他
- 精选数据集
- 用于对齐的预训练数据集
- 多模态指令微调数据集
- 上下文学习数据集
- 多模态思维链数据集
- 多模态 RLHF 数据集
- 评估基准
- 其他


精选论文

多模态指令微调

标题 会议/期刊 日期 代码 演示
Qwen3.5-Omni: Scaling Up, Toward Native Omni-Modal AGI 博客 2026-03-30 - 演示
Xiaomi MiMo-V2-Omni 博客 2026-03-18 - -
Star
InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing
arXiv 2026-03-10 Github 本地演示
Star
Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion
arXiv 2026-03-06 Github -
Beyond Language Modeling: An Exploration of Multimodal Pretraining arXiv 2026-03-03 - -
Gemini 3.1 Pro: A smarter model for your most complex tasks 博客 2026-02-19 - -
Star
Qwen3.5: Towards Native Multimodal Agents
博客 2026-02-16 Github 演示
Star
MiniCPM-o 4.5
博客 2026-02-06 Github 演示
Star
DeepSeek-OCR 2: Visual Causal Flow
DeepSeek 2026-01-27 Github -
Seed1.8 Model Card: Towards Generalized Real-World Agency Bytedance Seed 2025-12-18 - -
Introducing GPT-5.2 OpenAI 2025-12-11 - -
Introducing Mistral 3 博客 2025-12-02 Huggingface -
Star
Qwen3-VL Technical Report
arXiv 2025-11-26 Github 演示
Star
Emu3.5: Native Multimodal Models are World Learners
arXiv 2025-10-30 Github -
Star
VITA-E: Natural Embodied Interaction with Concurrent Seeing, Hearing, Speaking, and Acting
arXiv 2025-10-21 Github 本地演示
Star
DeepSeek-OCR: Contexts Optical Compression
arXiv 2025-10-21 Github -
Star
OmniVinci: Enhancing Architecture and Data for Omni-Modal Understanding LLM
arXiv 2025-10-17 Github -
NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching arXiv 2025-10-16 - -
Star
InteractiveOmni: A Unified Omni-modal Model for Audio-Visual Multi-turn Dialogue
arXiv 2025-10-15 Github -
Star
VITA-VLA: Efficiently Teaching Vision-Language Models to Act via Action Expert Distillation
arXiv 2025-10-10 Github -
Star
LLaVA-OneVision-1.5: Fully Open Framework for Democratized Multimodal Training
arXiv 2025-10-09 Github 演示
Star
Qwen3-Omni Technical Report
arXiv 2025-09-22 Github 演示
Star
InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency
arXiv 2025-08-27 Github 演示
MiniCPM-V 4.5: A GPT-4o Level MLLM for Single Image, Multi Image and Video Understanding on Your Phone - 2025-08-26 Github 演示
Star
Thyme: Think Beyond Images
arXiv 2025-08-18 Github 演示
Introducing GPT-5 OpenAI 2025-08-07 - -
Star
dots.vlm1
rednote-hilab 2025-08-06 Github 演示
Star
Step3: Cost-Effective Multimodal Intelligence
StepFun 2025-07-31 Github 演示
![Star](https://img.shields.io/github/stars/THUDM/GLM-4.1V-Thinking.svg?style=social&label=
2 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 25 ms
Developed with Cursor