近年来,文本到图像生成系统的进步主要由扩散模型驱动。然而,单阶段文本到图像扩散模型在计算效率和图像细节优化方面仍面临挑战。为了解决这一问题,本文提出了 CogView3,一个创新的级联框架,旨在提升文本到图像扩散的性能。
CogView3 是首个在文本到图像生成领域实现中继扩散(relay diffusion) 的模型。其工作流程为:首先生成低分辨率图像,然后通过中继超分辨率(relay-based super-resolution)进行细化。该方法不仅能够产生具有竞争力的文本到图像输出,还大幅降低了训练和推理成本。
实验结果表明,CogView3 在人工评估中比当前最先进的开源文本到图像扩散模型 SDXL 提升了 77.0%,而其推理时间仅约为 SDXL 的 1/2。CogView3 的蒸馏变体在推理时间仅为 SDXL 的 1/10 的情况下,实现了可比的性能。