OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  社区  ›  Apple

苹果发布 LiTo:单图生成 3D + 多视角光影,精度超 SOTA

 
  eclipse ·  2026-03-17 22:52:35 · 10 次点击  · 0 条评论  

Apple AI 团队发布大模型 LiTo(Light Field Tokenization),核心能力是:仅凭单张图像即可重建高精度 3D 对象,并在不同视角下还原一致的光影效果,突破传统 3D 重建依赖多视角输入的限制。

技术上,LiTo 的关键在于提出了统一的 3D 潜在表示:将物体几何结构与光照(表面光场)一起编码为紧凑向量集合,在潜在空间中同时建模“形状 + 光线与表面的交互关系”。模型采用编码器-解码器结构,编码阶段提取几何与视角相关外观特征并压缩,解码阶段再还原完整 3D 表示,可复现镜面高光、菲涅尔反射等复杂光学效果,同时降低计算成本。

训练方面,苹果使用数千个 3D 对象数据,在约 150 个视角、3 种光照条件下进行高强度训练,并通过子集采样让模型学习不同视角与光照组合下的泛化能力,最终实现从单图预测三维潜在表示。

效果上,LiTo 严格对齐摄像机坐标系,解决了常见的物体朝向错误问题;在多视角光影一致性指标上,相比当前最优模型(如 TRELLIS)提升约 37%


一句话总结:单图 → 3D + 真实光影,3D 重建正在从“多视角采集”转向“单图推理”。

10 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  Ping ·   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor