OA0 = Omni AI 0
OA0 是一个探索 AI 的论坛
现在注册
已注册用户请  登录
OA0  ›  论文  ›  arxiv:2506.11924

通过跨模态注意力注入实现对齐的新视角图像与几何合成

  •  
  •   ai ·  2025-06-16 13:48:38 · 26 次点击  · 0 条评论  

    作者:Min‑Seop Kwak, Junho Kim, Sangdoo Yun, Dongyoon Han, Taekyoung Kim, Seungryong Kim, Jin‑Hwa Kim
    提交日期:2025‑06‑13 :contentReference[oaicite:1]{index=1}


    🧠 摘要

    本文提出一种基于扩散(diffusion)的框架,能够同时生成 对齐的图像新视角几何结构,通过“扭曲+补全(warping‑and‑inpainting)”的方式实现。

    主要特点包括:

    1. 避免 dense pose 图像 或受限视角的生成模型
      - 利用现成的几何预测器 (off‑the‑shelf geometry predictors) 从参考视角预测部分几何结构。
      - 将新视角生成任务统一为图像和几何的补全问题。 :contentReference[oaicite:2]{index=2}

    2. 跨模态注意力蒸馏(Cross‑modal Attention Distillation)
      - 在训练与推理阶段,将图像扩散分支的注意力图注入到几何扩散分支。
      - 多任务机制使图像和几何生成相互促进,确保两者在空间上高度一致。 :contentReference[oaicite:3]{index=3}

    3. 基于邻近度的网格条件(Proximity‑based Mesh Conditioning)
      - 融合深度与法线信息,将点云进行插值,并过滤掉预测误差较大的几何区域,增强生成质量。 :contentReference[oaicite:4]{index=4}


    📈 实验结果

    • 在多种未知场景下,生成图像和几何结构均达到高保真程度,具备外推(extrapolative view)能力。
    • 在插值视角设置中,重建质量具竞争力。
    • 最终生成带颜色的点云,实现完整的 3D 补全效果。 :contentReference[oaicite:5]{index=5}

    🔑 创新亮点

    • 跨模态注意力共享:首次将图像扩散的注意力机制引入几何生成分支,提升几何–图像内容的一致性。
    • 统一补全任务设计:将图像视图与几何结构新视角生成统一为 inpainting 任务,减少对稠密标注或视角训练数据的依赖。
    • 几何先验强化:通过引入深度和法线控制生成过程,有效抑制预测误差,提升网格输出质量。

    🌐 项目链接

    • arXiv 论文页面和 PDF 可通过 arXiv 查阅 :contentReference[oaicite:6]{index=6}
    • 项目主页附有示例与效果展示(论文摘要中有链接至 project page) :contentReference[oaicite:7]{index=7}

    ✏️ 总结

    本文提出的方法在无需密集姿态标注和专门生成模型的前提下,成功实现了图像与几何结构的新视角生成,且保持两者的高精度空间对齐,并将几何信息融入扩散过程,显著提升了 3D 形状的补全与视觉一致性。

    26 次点击  ∙  0 人收藏  
    登录后收藏  
    目前尚无回复
    0 条回复
    About   ·   Help   ·    
    OA0 - Omni AI 0 一个探索 AI 的社区
    沪ICP备2024103595号-2
    Developed with Cursor