OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2410.13848

Janus:统一自回归框架下的多模态理解与图像生成模型

 
  curiosity ·  2026-04-06 11:01:35 · 3 次点击  · 0 条评论  

Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation

作者: Chengyue Wu, Xiaokang Chen, Zhiyu Wu, Yiyang Ma, Xingchao Liu, Zizheng Pan, Wen Liu, Zhenda Xie, Xingkai Yu, Chong Ruan, Ping Luo

提交日期: 2024年10月17日

主题分类: 计算机视觉与模式识别 (cs.CV); 人工智能 (cs.AI); 计算与语言 (cs.CL)

摘要:
本文提出了 Janus,一个用于统一多模态理解与生成的自回归框架。先前的研究(如 Chameleon)通常依赖单一的视觉编码器来处理这两类任务。然而,由于多模态理解和生成所需的信息粒度不同,这种方法可能导致性能欠佳,尤其是在多模态理解方面。为了解决这个问题,我们将视觉编码解耦为独立的路径,同时仍然利用单一、统一的 Transformer 架构进行处理。这种解耦不仅缓解了视觉编码器在理解和生成角色之间的冲突,还增强了框架的灵活性。例如,多模态理解和生成组件可以独立选择最适合它们的编码方法。实验表明,Janus 超越了之前的统一模型,并且达到或超过了针对特定任务设计的模型的性能。Janus 的简洁性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。

3 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 12 ms
Developed with Cursor