OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2402.12376

FiT:基于扩散 Transformer 的高质量图像生成方法

 
  legend ·  2026-05-20 11:01:23 · 8 次点击  · 0 条评论  

FiT: Flexible Vision Transformer for Diffusion Model

  • 标题: FiT: Flexible Vision Transformer for Diffusion Model
  • 作者: Zeyu Lu, Zidong Wang, Di Huang, Chengyue Wu, Xihui Liu, Wanli Ouyang, Lei Bai
  • 提交日期: 2024年2月19日(v1),最后修订于2024年10月15日(v4)
  • 分类: Computer Vision and Pattern Recognition (cs.CV)

摘要

现实世界的图像在分辨率上是无限自由的。然而,现有的扩散模型(如 Diffusion Transformers)在处理超出其训练范围的图像分辨率时常常面临挑战。为了解决这一局限,本文提出了灵活视觉 Transformer(FiT),一种专为生成不受分辨率和宽高比限制的图像而设计的 Transformer 架构。

与传统方法将图像视为静态分辨率网格不同,FiT 将图像概念化为动态大小 Token 的序列。这一视角使得训练策略能够灵活地适应多样的宽高比,并推广至训练和推理阶段,从而促进分辨率泛化,并消除由图像裁剪引入的偏差。通过精心调整的网络结构以及集成无需训练的 extrapolation 技术,FiT 在分辨率 extrapolation 生成中展现出卓越的灵活性。

大量实验表明,FiT 在多种分辨率下均表现出色,且无论是否在其训练分辨率分布内,都证明了其有效性。

8 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 40 ms
Developed with Cursor