苹果发布 LiTo：单图生成 3D + 多视角光影，精度超 SOTA

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

Apple AI 团队发布大模型 LiTo（Light Field Tokenization），核心能力是：仅凭单张图像即可重建高精度 3D 对象，并在不同视角下还原一致的光影效果，突破传统 3D 重建依赖多视角输入的限制。

技术上，LiTo 的关键在于提出了统一的 3D 潜在表示：将物体几何结构与光照（表面光场）一起编码为紧凑向量集合，在潜在空间中同时建模“形状 + 光线与表面的交互关系”。模型采用编码器-解码器结构，编码阶段提取几何与视角相关外观特征并压缩，解码阶段再还原完整 3D 表示，可复现镜面高光、菲涅尔反射等复杂光学效果，同时降低计算成本。

训练方面，苹果使用数千个 3D 对象数据，在约 150 个视角、3 种光照条件下进行高强度训练，并通过子集采样让模型学习不同视角与光照组合下的泛化能力，最终实现从单图预测三维潜在表示。

效果上，LiTo 严格对齐摄像机坐标系，解决了常见的物体朝向错误问题；在多视角光影一致性指标上，相比当前最优模型（如 TRELLIS）提升约 37%。

一句话总结：单图 → 3D + 真实光影，3D 重建正在从“多视角采集”转向“单图推理”。

72 次点击 ∙ 0 人收藏

登录后收藏

0 条回复