# MobileVLM : 一种快速、可复现且强大的移动端视觉语言助手
## 作者
Xiangxiang Chu, Limeng Qiao, Xinyang Lin, Shuang Xu, Yang Yang, Yiming Hu, Fei Wei, Xinyu Zhang, Bo Zhang, Xiaolin Wei, Chunhua Shen
## 摘要
我们提出了 MobileVLM,这是一个旨在移动设备上运行的多模态视觉语言模型 (MMVLM)。它融合了多种面向移动端的架构设计和技术,包括:一组从头开始训练的、参数规模为 1.4B 和 2.7B 的语言模型;一个采用 CLIP 方式预训练的多模态视觉模型;以及一个用于跨模态交互的高效投影器。我们在多个典型的 VLM 基准上评估了 MobileVLM。我们的模型展示出与一些规模大得多的模型相当的性能。更重要的是,我们在 Qualcomm Snapdragon 888 CPU 和 NVIDIA Jetson Orin GPU 上测量了推理速度,分别达到了每秒 21.5 个 token 和 65.3 个 token 的最优性能。我们的代码将开源在:`https://github.com/Meituan-AutoML/MobileVLM`。
## 主题/分类
- **主要分类:** 计算机视觉与模式识别 (cs.CV)
- **注释:** 技术报告 (Tech Report)