京东开源 JoyAI-Image-Edit：将空间智能引入图像编辑，重塑多视角生成与 3D 感知能力

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

当图像生成与编辑模型逐步迈入“可控生成”阶段，行业的下一个突破点正在从像素级操作转向空间理解能力。4 月 7 日，探索研究院正式开源图像模型 JoyAI-Image-Edit，提出将“空间智能（Spatial Intelligence）”引入图像编辑任务，实现从传统二维修图向三维空间重构的跨越。

这一发布的意义不止于一个新模型，更在于其尝试解决长期困扰视觉 AI 的核心问题：如何在生成与编辑中保持真实世界的空间一致性。

从“像素操作”到“空间建模”：图像编辑范式转变

过去的图像编辑模型（如 diffusion-based editing）主要聚焦：

局部区域修改（inpainting / outpainting）
风格迁移与语义替换
基于 prompt 的内容生成

这些方法本质上仍停留在“2D 像素空间”，存在明显局限：

物体移动容易破坏透视关系
多视角一致性难以保证
无法进行真实的空间操作（如旋转、位移）

JoyAI-Image-Edit 的核心创新在于：

将图像从“平面信号”提升为“隐式三维场景表示”

这意味着模型在编辑过程中，不再只是修改像素，而是在内部构建：

相机坐标系（camera coordinate system）
物体空间位置（object spatial embedding）
多视角一致性约束（multi-view consistency）

三大核心能力：空间编辑成为一等公民

从公开信息来看，JoyAI-Image-Edit 在能力设计上明确围绕“空间操作”展开，主要体现在三个维度：

1. 视角变换（Viewpoint Transformation）

模型可基于输入图像推断场景结构，并实现：

相机视角切换
透视关系重建
非刚性场景的合理补全

这类能力在传统 2D 编辑模型中几乎不可实现。

2. 空间漫游（Spatial Navigation）

在单张图像基础上，模型支持：

虚拟“移动相机”进行场景探索
生成连续视角变化的图像序列
保持场景结构一致

这一能力本质上接近于轻量级的 3D scene reconstruction。

3. 物体空间操控（Object-level Spatial Editing）

相比传统“复制粘贴”式编辑，JoyAI 支持：

物体在三维空间中的位移
旋转与尺度变化
与环境的空间关系自适应调整（如阴影、遮挡）

这意味着图像编辑开始具备类似 3D 软件（如 Blender）的部分能力，但以生成模型驱动。

技术路径：从多视角一致性到隐式三维表示

虽然具体实现细节尚未完全披露，但从能力推断，JoyAI-Image-Edit 很可能融合了以下技术路线：

多视角一致性建模（Multi-view Consistency）

通过在训练阶段引入：

多视角数据对齐
几何一致性损失（geometry-aware loss）

使模型在生成不同视角时保持结构稳定。

隐式场景表示（Implicit Scene Representation）

类似 NeRF（Neural Radiance Fields）或其变体：

将场景编码为连续函数
支持任意视角渲染
与 diffusion / transformer 结合进行生成

空间感知的扩散模型（Spatial-aware Diffusion）

在 diffusion pipeline 中引入：

相机参数条件（camera conditioning）
物体级控制信号（object-level control）
深度或法线信息（depth / normal priors）

使生成过程具备空间约束。

与现有模型的差异：从“生成质量”到“物理合理性”

当前主流图像模型（如 Stable Diffusion、DALL·E 系列）主要优化：

图像质量（fidelity）
语义一致性（semantic alignment）

而 JoyAI-Image-Edit 更进一步，强调：

空间一致性（spatial consistency）
几何合理性（geometric plausibility）
可操作性（editability in 3D space）

这代表评价标准正在发生变化：

从“像不像”走向“是否符合物理与空间逻辑”

应用场景：从电商内容到具身智能

作为一家电商驱动的技术公司，将该模型的落地场景明确指向多个方向：

1. 电商内容生产

商品多角度展示自动生成
虚拟拍摄与场景替换
降低拍摄与建模成本

2. 创意设计与广告

快速生成不同构图与视角方案
实现“所见即所改”的空间编辑
提升设计迭代效率

3. 3D 重建与数字资产生成

从单图生成多视角数据
辅助构建 3D 模型
支撑虚拟现实 / 元宇宙内容

4. 具身智能（Embodied AI）

在机器人与自动驾驶等领域：

提供更真实的视觉感知数据
支持空间理解与推理
改善 sim-to-real 迁移

开源的意义：空间智能能力向社区释放

与多数 SOTA 视觉模型趋于闭源不同，JoyAI-Image-Edit 选择开源，释放出两个信号：

空间智能将成为视觉模型的新竞争焦点
国内厂商开始在前沿视觉方向上主动输出能力

对于开发者而言，这意味着：

可以基于该模型构建自定义空间编辑工具
探索 2D → 3D 的生成式 AI 新范式
在开源生态中推动空间感知模型演进

写在最后：视觉模型的下一站，是“理解空间”

JoyAI-Image-Edit 的出现，标志着图像模型正在经历一次关键跃迁：

从像素 → 结构
从平面 → 空间
从生成 → 操作

这与大模型在 NLP 领域的演进路径类似：

从文本生成 → 推理 → Agent 执行

在视觉领域，对应的路径正在变为：

从图像生成 → 空间理解 → 具身交互

可以预见的是，未来的视觉模型不再只是“画图工具”，而是：

能理解三维世界
能进行空间推理
能服务于真实物理环境

而 JoyAI-Image-Edit，正是这一趋势中的一个重要起点。

45 次点击 ∙ 0 人收藏

登录后收藏

0 条回复