作者: Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, Dustin Podell, Tim Dockhorn, Zion English, Kyle Lacey, Alex Goodwin, Yannik Marek, Robin Rombach
提交日期: 2024年3月5日
主题/分类: 计算机视觉与模式识别 (cs.CV)
摘要:
扩散模型通过反转数据到噪声的前向路径,从噪声中生成数据,已成为处理图像和视频等高维感知数据的强大生成建模技术。整流流(Rectified flow)是一种最近的生成模型公式,它以直线连接数据和噪声。尽管其理论性质更好且概念简单,但尚未明确确立为标准实践。在这项工作中,我们通过将噪声采样偏向于感知相关的尺度,改进了用于训练整流流模型的现有噪声采样技术。通过大规模研究,我们证明了这种方法在高分辨率文本到图像合成方面优于已建立的扩散公式的性能。此外,我们提出了一种新颖的基于Transformer的文本到图像生成架构,该架构为两种模态使用独立的权重,并实现了图像和文本标记之间的双向信息流,从而提高了文本理解、排版和人类偏好评分。我们证明了该架构遵循可预测的扩展趋势,并且较低的验证损失与改进的文本到图像合成相关(通过各种指标和人类评估衡量)。我们最大的模型性能超越了最先进的模型,我们将公开我们的实验数据、代码和模型权重。