OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2401.13601

OpenDevin:面向通用软件开发任务的开源 AI Agent 框架

 
  nosql ·  2026-02-26 18:06:55 · 2 次点击  · 0 条评论  

MM-LLMs: Recent Advances in MultiModal Large Language Models

作者: Duzhen Zhang, Yahan Yu, Jiahua Dong, Chenxing Li, Dan Su, Chenhui Chu, Dong Yu

提交/修订日期: 2024年1月24日提交,2024年5月28日修订 (v5)

主题/分类: 计算机科学 > 计算与语言 (cs.CL)

状态: 已被 ACL 2024 (findings) 接收

摘要:
在过去的一年中,多模态大语言模型 (MM-LLMs) 取得了实质性进展。它们通过高效的训练策略,增强了现成的 LLMs,使其能够支持多模态输入或输出。由此产生的模型不仅保留了 LLMs 固有的推理和决策能力,还赋能了广泛的多模态任务。本文提供了一份全面的综述,旨在促进 MM-LLMs 的进一步研究。首先,我们概述了模型架构和训练流程的通用设计范式。随后,我们引入了一个涵盖 126 个 MM-LLMs 的分类法,每个模型都有其特定的设计范式。此外,我们回顾了选定 MM-LLMs 在主流基准测试上的性能,并总结了增强 MM-LLMs 效能的关键训练方案。最后,我们探讨了 MM-LLMs 有前景的研究方向,同时为该领域的最新进展维护了一个实时追踪网站。我们希望本综述能为 MM-LLMs 领域的持续发展做出贡献。

2 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 17 ms
Developed with Cursor