作者:Min‑Seop Kwak, Junho Kim, Sangdoo Yun, Dongyoon Han, Taekyoung Kim, Seungryong Kim, Jin‑Hwa Kim
提交日期:2025‑06‑13 :contentReference[oaicite:1]{index=1}
本文提出一种基于扩散(diffusion)的框架,能够同时生成 对齐的图像新视角 和 几何结构,通过“扭曲+补全(warping‑and‑inpainting)”的方式实现。
主要特点包括:
避免 dense pose 图像 或受限视角的生成模型
- 利用现成的几何预测器 (off‑the‑shelf geometry predictors) 从参考视角预测部分几何结构。
- 将新视角生成任务统一为图像和几何的补全问题。 :contentReference[oaicite:2]{index=2}
跨模态注意力蒸馏(Cross‑modal Attention Distillation)
- 在训练与推理阶段,将图像扩散分支的注意力图注入到几何扩散分支。
- 多任务机制使图像和几何生成相互促进,确保两者在空间上高度一致。 :contentReference[oaicite:3]{index=3}
基于邻近度的网格条件(Proximity‑based Mesh Conditioning)
- 融合深度与法线信息,将点云进行插值,并过滤掉预测误差较大的几何区域,增强生成质量。 :contentReference[oaicite:4]{index=4}
本文提出的方法在无需密集姿态标注和专门生成模型的前提下,成功实现了图像与几何结构的新视角生成,且保持两者的高精度空间对齐,并将几何信息融入扩散过程,显著提升了 3D 形状的补全与视觉一致性。