SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models

基本信息

标题: SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models
作者: Ziyi Lin, Chris Liu, Renrui Zhang, Peng Gao, Longtian Qiu, Han Xiao, Han Qiu, Chen Lin, Wenqi Shao, Keqin Chen, Jiaming Han, Siyuan Huang, Yichi Zhang, Xuming He, Hongsheng Li, Yu Qiao
提交日期: 2023年11月13日
学科分类: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Machine Learning (cs.LG)
论文链接: arXiv:2311.07575
代码链接: GitHub

本文提出 SPHINX，一个具有联合混合（Joint Mixing）机制的多模态大语言模型（MLLM），该机制混合了模型权重、微调任务和视觉嵌入。具体而言：

权重混合（Weight Mix）：为增强视觉-语言对齐，在预训练期间解冻大语言模型（LLM），并引入一种权重混合策略，将使用真实数据和合成数据训练的LLM的权重直接整合，从而高效融合多样化的语义并保持鲁棒性。
任务混合（Task Mix）：为实现多用途能力，混合多种任务进行联合视觉指令微调，并设计任务特定指令以避免任务间冲突。除基本的视觉问答外，还包含更具挑战性的任务，如区域级理解、描述定位、文档布局检测和人体姿态估计，促进不同场景下的相互增强。
视觉嵌入混合（Visual Embeddings Mix）：从不同的网络架构、预训练范式和信息粒度中提取全面的视觉嵌入，为语言模型提供更鲁棒的图像表示。

基于上述联合混合机制，SPHINX在广泛的应用场景中展现出优越的多模态理解能力。此外，为进一步捕获高分辨率图像的细粒度外观，作者还提出了一种高效策略，通过混合不同尺度的高分辨率子图像，SPHINX在现有评估基准上取得了卓越的视觉解析和推理性能。本文代码已开源。

论文地址：https://arxiv.org/abs/2311.07575

19 次点击 ∙ 0 人收藏

登录后收藏

0 条回复