现实世界的图像在分辨率上是无限自由的。然而,现有的扩散模型(如 Diffusion Transformers)在处理超出其训练范围的图像分辨率时常常面临挑战。为了解决这一局限,本文提出了灵活视觉 Transformer(FiT),一种专为生成不受分辨率和宽高比限制的图像而设计的 Transformer 架构。
与传统方法将图像视为静态分辨率网格不同,FiT 将图像概念化为动态大小 Token 的序列。这一视角使得训练策略能够灵活地适应多样的宽高比,并推广至训练和推理阶段,从而促进分辨率泛化,并消除由图像裁剪引入的偏差。通过精心调整的网络结构以及集成无需训练的 extrapolation 技术,FiT 在分辨率 extrapolation 生成中展现出卓越的灵活性。
大量实验表明,FiT 在多种分辨率下均表现出色,且无论是否在其训练分辨率分布内,都证明了其有效性。