MobileVLM：面向终端部署的轻量级视觉语言模型

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

# MobileVLM : 一种快速、可复现且强大的移动端视觉语言助手

## 作者
Xiangxiang Chu, Limeng Qiao, Xinyang Lin, Shuang Xu, Yang Yang, Yiming Hu, Fei Wei, Xinyu Zhang, Bo Zhang, Xiaolin Wei, Chunhua Shen

## 摘要
我们提出了 MobileVLM，这是一个旨在移动设备上运行的多模态视觉语言模型 (MMVLM)。它融合了多种面向移动端的架构设计和技术，包括：一组从头开始训练的、参数规模为 1.4B 和 2.7B 的语言模型；一个采用 CLIP 方式预训练的多模态视觉模型；以及一个用于跨模态交互的高效投影器。我们在多个典型的 VLM 基准上评估了 MobileVLM。我们的模型展示出与一些规模大得多的模型相当的性能。更重要的是，我们在 Qualcomm Snapdragon 888 CPU 和 NVIDIA Jetson Orin GPU 上测量了推理速度，分别达到了每秒 21.5 个 token 和 65.3 个 token 的最优性能。我们的代码将开源在：`https://github.com/Meituan-AutoML/MobileVLM`。

## 主题/分类
- **主要分类：** 计算机视觉与模式识别 (cs.CV)
- **注释：** 技术报告 (Tech Report)

论文地址：https://arxiv.org/abs/2312.16886v1

29 次点击 ∙ 0 人收藏

登录后收藏

0 条回复