作者: Chengyue Wu, Xiaokang Chen, Zhiyu Wu, Yiyang Ma, Xingchao Liu, Zizheng Pan, Wen Liu, Zhenda Xie, Xingkai Yu, Chong Ruan, Ping Luo
提交日期: 2024年10月17日
主题分类: 计算机视觉与模式识别 (cs.CV); 人工智能 (cs.AI); 计算与语言 (cs.CL)
摘要:
本文提出了 Janus,一个用于统一多模态理解与生成的自回归框架。先前的研究(如 Chameleon)通常依赖单一的视觉编码器来处理这两类任务。然而,由于多模态理解和生成所需的信息粒度不同,这种方法可能导致性能欠佳,尤其是在多模态理解方面。为了解决这个问题,我们将视觉编码解耦为独立的路径,同时仍然利用单一、统一的 Transformer 架构进行处理。这种解耦不仅缓解了视觉编码器在理解和生成角色之间的冲突,还增强了框架的灵活性。例如,多模态理解和生成组件可以独立选择最适合它们的编码方法。实验表明,Janus 超越了之前的统一模型,并且达到或超过了针对特定任务设计的模型的性能。Janus 的简洁性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。