DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

作者

Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Yael Pritch, Michael Rubinstein, Kfir Aberman

摘要

大规模文本到图像模型在AI领域取得了显著进展，能够根据文本提示生成高质量且多样化的图像。然而，这些模型缺乏模仿给定参考集中主体外观并在不同上下文中合成其新颖再现的能力。本文提出了一种新的文本到图像扩散模型"个性化"方法（使其专门化以满足用户需求）。仅需输入一个主体的少量图像，我们微调预训练的文本到图像模型（Imagen，但我们的方法不限于特定模型），使其学会将唯一标识符与该特定主体绑定。一旦主体嵌入模型的输出域，就可以利用该唯一标识符在不同场景中合成该主体的全新逼真图像。通过利用模型中嵌入的语义先验与一种新的自生类特定先验保持损失（autogenous class-specific prior preservation loss），我们的技术能够在参考图像中未出现的多样场景、姿态、视角和光照条件下合成主体。我们将该技术应用于多个此前难以解决的任务，包括主体重新上下文化、文本引导的视角合成、外观修改和艺术渲染（同时保持主体的关键特征）。

主题/分类

主要分类：计算机视觉与模式识别 (cs.CV)
其他分类：图形学 (cs.GR)；机器学习 (cs.LG)

提交信息

版本：v1，提交于2022年8月25日
项目页面：https://dreambooth.github.io/

论文地址：https://arxiv.org/abs/2208.12242v1

40 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

DreamBooth：少量样本即可完成个性化文本到图像生成

DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

作者

摘要

主题/分类

提交信息