DreamFusion: Text-to-3D using 2D Diffusion

作者： Ben Poole, Ajay Jain, Jonathan T. Barron, Ben Mildenhall

提交日期： 2022年9月29日

摘要：
近年来，基于数十亿图像-文本对训练的扩散模型推动了文本到图像合成的突破。然而，将这种方法应用于3D合成需要大规模的带标签3D数据集和高效的3D数据去噪架构，而这两者目前都不存在。在本工作中，我们通过使用预训练的2D文本到图像扩散模型来执行文本到3D合成，从而规避了这些限制。我们引入了一种基于概率密度蒸馏的损失函数，使得2D扩散模型可以作为参数化图像生成器优化的先验。在一个类似DeepDream的过程中使用这种损失，我们通过梯度下降优化一个随机初始化的3D模型（神经辐射场，NeRF），使其从随机角度渲染出的2D图像达到较低的损失。最终得到的、符合给定文本描述的3D模型可以从任意角度查看，用任意光照重新打光，或合成到任何3D环境中。我们的方法不需要任何3D训练数据，也无需修改图像扩散模型，证明了预训练图像扩散模型作为先验的有效性。

主题/分类：
- 计算机视觉与模式识别 (cs.CV)
- 机器学习 (cs.LG)
- 机器学习 (stat.ML)

项目页面： https://dreamfusion3d.github.io/

论文地址：https://arxiv.org/abs/2209.14988

22 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

DreamFusion：基于文本到图像扩散模型的 3D 生成方案

DreamFusion: Text-to-3D using 2D Diffusion