为文本到图像扩散模型添加条件控制

作者： Lvmin Zhang, Anyi Rao, Maneesh Agrawala

提交/修订日期： 2023年2月10日提交，2023年11月26日修订（v3）

摘要：
本文提出了ControlNet，一种用于为大型预训练文本到图像扩散模型添加空间条件控制的神经网络架构。ControlNet锁定已可投入生产的大型扩散模型，并复用其经过数十亿图像预训练的深度且鲁棒的编码层，作为强大的主干网络来学习多种条件控制。该神经架构通过“零卷积”（零初始化的卷积层）进行连接，这些层从零开始逐步增长参数，确保没有有害噪声会影响微调过程。我们使用Stable Diffusion测试了各种条件控制，例如边缘、深度、分割、人体姿态等，可以单独或组合使用条件，也可以配合或不配合文本提示。我们证明了ControlNet的训练在小数据集（<5万）和大数据集（>100万）上都具有鲁棒性。广泛的结果表明，ControlNet可以促进对图像扩散模型进行更广泛的控制应用。

主题/分类：
- 计算机视觉与模式识别 (cs.CV)
- 人工智能 (cs.AI)
- 图形学 (cs.GR)
- 人机交互 (cs.HC)
- 多媒体 (cs.MM)

代码与补充材料： https://github.com/lllyasviel/ControlNet

论文地址：https://arxiv.org/abs/2302.05543

49 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

ControlNet：为文本生成图像扩散模型添加条件控制

为文本到图像扩散模型添加条件控制