🔥🔥 MLLM 综述 | 💬 微信交流群 (MLLM微信交流群)
🔥🔥 VITA 系列全能 MLLMs | 💬 微信交流群 (VITA微信交流群)
🌟 VITA-1.5: 迈向 GPT-4o 级别的实时视觉与语音交互
NeurIPS 2025 Highlight, 论文, 项目
Long-VITA: 将大型多模态模型扩展到 100 万 Token,同时保持领先的短上下文精度
arXiv 2025, 论文, 项目
VITA-Audio: 高效大型语音语言模型的快速交错跨模态 Token 生成
NeurIPS 2025, 论文, 项目
🔥🔥 MME 系列 MLLM 基准
MME: 多模态大语言模型综合评估基准
NeurIPS 2025 DB Highlight, 论文, 数据集, 评估工具, ✒️ 引用
MME-RealWorld: 你的多模态大语言模型能挑战对人类都困难的高分辨率真实世界场景吗?
ICLR 2025, 论文, 项目, 数据集