CogView3: Finer and Faster Text-to-Image Generation via Relay Diffusion

基本信息

标题: CogView3: Finer and Faster Text-to-Image Generation via Relay Diffusion
作者: Wendi Zheng, Jiayan Teng, Zhuoyi Yang, Weihan Wang, Jidong Chen, Xiaotao Gu, Yuxiao Dong, Ming Ding, Jie Tang
提交日期: 2024年3月8日
分类: Computer Vision and Pattern Recognition (cs.CV)
arXiv ID: 2403.05121

摘要

近年来，文本到图像生成系统的进步主要由扩散模型驱动。然而，单阶段文本到图像扩散模型在计算效率和图像细节优化方面仍面临挑战。为了解决这一问题，本文提出了 CogView3，一个创新的级联框架，旨在提升文本到图像扩散的性能。

CogView3 是首个在文本到图像生成领域实现中继扩散（relay diffusion） 的模型。其工作流程为：首先生成低分辨率图像，然后通过中继超分辨率（relay-based super-resolution）进行细化。该方法不仅能够产生具有竞争力的文本到图像输出，还大幅降低了训练和推理成本。

实验结果表明，CogView3 在人工评估中比当前最先进的开源文本到图像扩散模型 SDXL 提升了 77.0%，而其推理时间仅约为 SDXL 的 1/2。CogView3 的蒸馏变体在推理时间仅为 SDXL 的 1/10 的情况下，实现了可比的性能。

论文链接

论文地址：https://arxiv.org/abs/2403.05121

23 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

CogView3：扩散 Transformer 架构下的文本到图像生成模型

CogView3: Finer and Faster Text-to-Image Generation via Relay Diffusion

基本信息

摘要

论文链接