作者: Seungwhan Moon, Andrea Madotto, Zhaojiang Lin, Tushar Nagarajan, Matt Smith, Shashank Jain, Chun-Fu Yeh, Prakash Murugesan, Peyman Heidari, Yue Liu, Kavya Srinet, Babak Damavandi, Anuj Kumar
提交日期: 2023年9月27日
摘要:
本文提出了Any-Modality Augmented Language Model (AnyMAL),一个统一的模型,能够对多样化的输入模态信号(即文本、图像、视频、音频、IMU运动传感器)进行推理,并生成文本响应。AnyMAL继承了包括LLaMA-2 (70B)在内的最先进大语言模型(LLMs)强大的基于文本的推理能力,并通过一个预训练的对齐器模块将特定模态的信号转换到联合的文本空间。为了进一步增强多模态LLM的能力,我们使用一个手动收集的多模态指令集对模型进行微调,该指令集涵盖了超越简单问答的多样化主题和任务。我们进行了包含人工评估和自动评估的综合实证分析,并在各种多模态任务上展示了最先进的性能。
主题/分类:
- 主要:机器学习 (cs.LG)
- 其他:计算与语言 (cs.CL);计算机视觉与模式识别 (cs.CV)
arXiv链接: https://arxiv.org/abs/2309.16058