作者: Ben Poole, Ajay Jain, Jonathan T. Barron, Ben Mildenhall
提交日期: 2022年9月29日
摘要:
近年来,基于数十亿图像-文本对训练的扩散模型推动了文本到图像合成的突破。然而,将这种方法应用于3D合成需要大规模的带标签3D数据集和高效的3D数据去噪架构,而这两者目前都不存在。在本工作中,我们通过使用预训练的2D文本到图像扩散模型来执行文本到3D合成,从而规避了这些限制。我们引入了一种基于概率密度蒸馏的损失函数,使得2D扩散模型可以作为参数化图像生成器优化的先验。在一个类似DeepDream的过程中使用这种损失,我们通过梯度下降优化一个随机初始化的3D模型(神经辐射场,NeRF),使其从随机角度渲染出的2D图像达到较低的损失。最终得到的、符合给定文本描述的3D模型可以从任意角度查看,用任意光照重新打光,或合成到任何3D环境中。我们的方法不需要任何3D训练数据,也无需修改图像扩散模型,证明了预训练图像扩散模型作为先验的有效性。
主题/分类:
- 计算机视觉与模式识别 (cs.CV)
- 机器学习 (cs.LG)
- 机器学习 (stat.ML)