FiT: Flexible Vision Transformer for Diffusion Model

标题： FiT: Flexible Vision Transformer for Diffusion Model
作者： Zeyu Lu, Zidong Wang, Di Huang, Chengyue Wu, Xihui Liu, Wanli Ouyang, Lei Bai
提交日期： 2024年2月19日（v1），最后修订于2024年10月15日（v4）
分类： Computer Vision and Pattern Recognition (cs.CV)

摘要

现实世界的图像在分辨率上是无限自由的。然而，现有的扩散模型（如 Diffusion Transformers）在处理超出其训练范围的图像分辨率时常常面临挑战。为了解决这一局限，本文提出了灵活视觉 Transformer（FiT），一种专为生成不受分辨率和宽高比限制的图像而设计的 Transformer 架构。

与传统方法将图像视为静态分辨率网格不同，FiT 将图像概念化为动态大小 Token 的序列。这一视角使得训练策略能够灵活地适应多样的宽高比，并推广至训练和推理阶段，从而促进分辨率泛化，并消除由图像裁剪引入的偏差。通过精心调整的网络结构以及集成无需训练的 extrapolation 技术，FiT 在分辨率 extrapolation 生成中展现出卓越的灵活性。

大量实验表明，FiT 在多种分辨率下均表现出色，且无论是否在其训练分辨率分布内，都证明了其有效性。

代码仓库： https://github.com/whlzy/FiT

论文地址：https://arxiv.org/abs/2402.12376

35 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

FiT：基于扩散 Transformer 的高质量图像生成方法

FiT: Flexible Vision Transformer for Diffusion Model

摘要