Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation

作者： Chengyue Wu, Xiaokang Chen, Zhiyu Wu, Yiyang Ma, Xingchao Liu, Zizheng Pan, Wen Liu, Zhenda Xie, Xingkai Yu, Chong Ruan, Ping Luo

提交日期： 2024年10月17日

主题分类： 计算机视觉与模式识别 (cs.CV); 人工智能 (cs.AI); 计算与语言 (cs.CL)

摘要：
本文提出了 Janus，一个用于统一多模态理解与生成的自回归框架。先前的研究（如 Chameleon）通常依赖单一的视觉编码器来处理这两类任务。然而，由于多模态理解和生成所需的信息粒度不同，这种方法可能导致性能欠佳，尤其是在多模态理解方面。为了解决这个问题，我们将视觉编码解耦为独立的路径，同时仍然利用单一、统一的 Transformer 架构进行处理。这种解耦不仅缓解了视觉编码器在理解和生成角色之间的冲突，还增强了框架的灵活性。例如，多模态理解和生成组件可以独立选择最适合它们的编码方法。实验表明，Janus 超越了之前的统一模型，并且达到或超过了针对特定任务设计的模型的性能。Janus 的简洁性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。

论文地址：https://arxiv.org/abs/2410.13848

58 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

Janus：统一自回归框架下的多模态理解与图像生成模型

Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation