OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2312.16886v2

MobileVLM:面向移动端部署的高效视觉语言模型

 
  explore ·  2026-04-14 11:01:23 · 14 次点击  · 0 条评论  

MobileVLM:面向移动设备的快速、强大且开放的视觉语言助手

作者: Xiangxiang Chu, Limeng Qiao, Xinyang Lin, Shuang Xu, Yang Yang, Yiming Hu, Fei Wei, Xinyu Zhang, Bo Zhang, Xiaolin Wei, Chunhua Shen

提交/修订日期: 2023年12月28日提交,2023年12月30日修订 (v2)

主题/分类: 计算机视觉与模式识别 (cs.CV)

摘要:
本文提出了 MobileVLM,一个旨在移动设备上运行的高性能多模态视觉语言模型。它融合了多种面向移动端的架构设计和技术,包含一组从头开始训练的、参数量分别为 14 亿和 27 亿的语言模型,一个以 CLIP 方式预训练的多模态视觉模型,以及通过高效投影器实现的跨模态交互。我们在多个典型的 VLM 基准上评估了 MobileVLM。我们的模型表现出与一些大得多的模型相当的性能。更重要的是,我们分别在高通骁龙 888 CPU 和 NVIDIA Jetson Orin GPU 上测量了推理速度,并分别获得了每秒 21.5 个 token 和 65.3 个 token 的最先进性能。我们的代码将在以下地址公开:https://github.com/Meituan-AutoML/MobileVLM。

备注: 技术报告。

14 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 16 ms
Developed with Cursor