OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2403.05121

CogView3:扩散 Transformer 架构下的文本到图像生成模型

 
  joyful ·  2026-05-30 11:01:24 · 23 次点击  · 0 条评论  

CogView3: Finer and Faster Text-to-Image Generation via Relay Diffusion

基本信息

  • 标题: CogView3: Finer and Faster Text-to-Image Generation via Relay Diffusion
  • 作者: Wendi Zheng, Jiayan Teng, Zhuoyi Yang, Weihan Wang, Jidong Chen, Xiaotao Gu, Yuxiao Dong, Ming Ding, Jie Tang
  • 提交日期: 2024年3月8日
  • 分类: Computer Vision and Pattern Recognition (cs.CV)
  • arXiv ID: 2403.05121

摘要

近年来,文本到图像生成系统的进步主要由扩散模型驱动。然而,单阶段文本到图像扩散模型在计算效率和图像细节优化方面仍面临挑战。为了解决这一问题,本文提出了 CogView3,一个创新的级联框架,旨在提升文本到图像扩散的性能。

CogView3 是首个在文本到图像生成领域实现中继扩散(relay diffusion) 的模型。其工作流程为:首先生成低分辨率图像,然后通过中继超分辨率(relay-based super-resolution)进行细化。该方法不仅能够产生具有竞争力的文本到图像输出,还大幅降低了训练和推理成本。

实验结果表明,CogView3 在人工评估中比当前最先进的开源文本到图像扩散模型 SDXL 提升了 77.0%,而其推理时间仅约为 SDXL 的 1/2。CogView3 的蒸馏变体在推理时间仅为 SDXL 的 1/10 的情况下,实现了可比的性能。

论文链接

23 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 28 ms
Developed with Cursor