Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein, Kfir Aberman
大规模文本到图像模型在AI领域取得了显著进展,能够根据文本提示生成高质量且多样化的图像。然而,这些模型缺乏模仿给定参考集中主体外观并在不同上下文中合成其新颖再现的能力。本文提出了一种新的文本到图像扩散模型"个性化"方法(使其专门化以满足用户需求)。仅需输入一个主体的少量图像,我们微调预训练的文本到图像模型(Imagen,但我们的方法不限于特定模型),使其学会将唯一标识符与该特定主体绑定。一旦主体嵌入模型的输出域,就可以利用该唯一标识符在不同场景中合成该主体的全新逼真图像。通过利用模型中嵌入的语义先验与一种新的自生类特定先验保持损失(autogenous class-specific prior preservation loss),我们的技术能够在参考图像中未出现的多样场景、姿态、视角和光照条件下合成主体。我们将该技术应用于多个此前难以解决的任务,包括主体重新上下文化、文本引导的视角合成、外观修改和艺术渲染(同时保持主体的关键特征)。