作者: Yuan Yao, Tianyu Yu, Ao Zhang, Chongyi Wang, Junbo Cui, Hongji Zhu, Tianchi Cai, Haoyu Li, Weilin Zhao, Zhihui He, Qianyu Chen, Huarong Zhou, Zhensheng Zou, Haoye Zhang, Shengding Hu, Zhi Zheng, Jie Zhou, Jie Cai, Xu Han, Guoyang Zeng, Dahai Li, Zhiyuan Liu, Maosong Sun
提交日期: 2024年8月3日
主题/分类: 计算机视觉与模式识别 (cs.CV)
多模态大语言模型(MLLMs)的兴起从根本上重塑了人工智能研究和产业的格局,为迈向下一个AI里程碑指明了道路。然而,MLLMs在实际应用中仍面临重大挑战。最显著的挑战来自于运行具有海量参数和大量计算的MLLM所带来的巨大成本。因此,大多数MLLM需要部署在高性能云服务器上,这极大地限制了其在移动、离线、对能耗敏感以及对隐私保护要求高等场景中的应用范围。
本文提出了MiniCPM-V,一个可部署在终端设备上的高效MLLM系列。通过整合架构、预训练和对齐方面的最新MLLM技术,最新的MiniCPM-Llama3-V 2.5具有以下几个显著特点:
1. 强大性能: 在涵盖11个流行基准的综合评估OpenCompass上,其表现超越了GPT-4V-1106、Gemini Pro和Claude 3。
2. 强大的OCR能力: 支持任意宽高比的180万像素高分辨率图像感知。
3. 可信行为: 幻觉率低。
4. 多语言支持: 支持30多种语言。
5. 高效部署: 可在手机上高效运行。
更重要的是,MiniCPM-V可以被视为一个代表未来趋势的典型例子:达到可用(例如GPT-4V)级别性能所需的模型尺寸正在迅速减小,同时终端侧计算能力也在快速增长。这共同表明,在终端设备上部署GPT-4V级别的MLLM正变得越来越可能,将在不久的将来解锁更广泛的现实世界AI应用。