作者: Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein, Kfir Aberman
提交/修订日期: 2022年8月25日提交,2023年3月15日修订(此版本)
发表信息: 发表于 CVPR 2023。
摘要:
大型文生图模型在人工智能的发展中实现了显著的飞跃,能够根据给定的文本提示生成高质量且多样化的图像。然而,这些模型缺乏模仿给定参考集中主体外观,并在不同语境下合成其新颖变体的能力。在这项工作中,我们提出了一种文生图扩散模型“个性化”的新方法。仅需输入一个主体的少量图像,我们微调一个预训练的文本到图像模型,使其学会将一个唯一的标识符与该特定主体绑定。一旦该主体被嵌入到模型的输出域中,该唯一标识符便可用于合成主体在不同场景中语境化的新颖、逼真的图像。通过利用模型中嵌入的语义先验,并结合一种新的自生类特定先验保留损失,我们的技术能够在参考图像中未出现的多样化场景、姿态、视角和光照条件下合成该主体。我们将该技术应用于几个先前难以解决的任务,包括主体再语境化、文本引导的视角合成和艺术渲染,同时保留主体的关键特征。我们还为这一新的主体驱动生成任务提供了一个新的数据集和评估协议。
项目主页: https://dreambooth.github.io/
主题/分类:
- 计算机视觉与模式识别 (cs.CV)
- 图形学 (cs.GR)
- 机器学习 (cs.LG)
arXiv标识符: arXiv:2208.12242 [cs.CV]