OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  社区  ›  Yuanbao

腾讯开源混元3D 世界模型2.0,从生成视频到“造世界”:与空间智能 Agent 的落地路径

 
  color ·  2026-04-16 12:33:43 · 7 次点击  · 0 条评论  

多模态大模型的下一站,正在从“生成内容”转向“生成环境”。腾讯混元团队最新开源的 (HY-World2.0),正试图回答一个更具工程价值的问题:AI 能否直接产出可编辑、可交互、可部署的三维空间资产。

相较于此前停留在视频或单体3D对象生成的路径,这一版本的关键变化,是将生成目标提升到“世界级建模(world-level modeling)”,并开始对接游戏引擎与仿真系统的真实生产流程。


从“内容生成”到“空间生成”:3D AI 的范式跃迁

在过去一轮生成式 AI 浪潮中,3D 方向始终存在一个断层:

  • 文生图 / 文生视频:已经具备较高可用性
  • 文生3D:多数停留在单物体(object-level)或粗糙场景

HY-World2.0 的目标,则是直接生成包含“人-物-景”的完整空间,并支持后续编辑与仿真。这意味着模型输出不再是视觉结果,而是结构化空间资产

其输入模态覆盖:

  • 文本(scene prompt)
  • 图像(reference image)
  • 视频(动态场景线索)

输出则支持多种工业标准格式:

  • Mesh(用于渲染与建模)
  • 3D Gaussian Splatting(3DGS)(用于高效重建与实时渲染)
  • 点云(point cloud,用于感知与几何建模)

这些资产可以直接接入 、等主流引擎,进入实际生产管线。

本质上,这让“生成模型”第一次成为“内容生产线的一环”,而不是独立工具。


架构拆解:统一空间理解、生成与重建

HY-World2.0 的核心设计思路,是将过去分散的三类能力统一到一个端到端体系中:

  • 空间理解(scene understanding)
  • 空间生成(scene synthesis)
  • 空间重建(scene reconstruction)

这一统一架构下,几个关键模块值得关注:

HY-Pano-2.0:无相机参数的全景建模

传统三维重建通常依赖相机参数(intrinsics / extrinsics)。HY-Pano-2.0 通过隐式学习方式,绕过显式相机建模,实现 360° 全景空间推理。

其技术意义在于:

  • 降低数据依赖(无需精确标定)
  • 提升泛化能力(适配非结构化输入)
  • 为“开放世界生成”提供基础

这类方法与 NeRF 系列工作有一定关联,但更偏向统一生成框架而非单一重建任务。


空间 Agent:VLM + NavMesh 的任务规划层

HY-World2.0 引入了一个更接近当前 AI Agent 研究前沿的模块——空间 Agent。

其核心组合为:

  • VLM(Vision-Language Model):负责语义理解
  • NavMesh(导航网格):提供可行走区域与路径约束

两者结合,使模型不仅能生成空间,还能在其中进行路径规划与行为模拟,例如:

  • 自动生成漫游路径
  • 支持“角色视角”探索
  • 具备基础环境交互能力

这标志着模型开始从“生成器”向“环境中的智能体”演进,与具身智能(Embodied AI)的技术路径产生交集。


WorldStereo:跨区域一致性约束

在大规模场景生成中,一个核心难点是“新旧区域的一致性”。

WorldStereo 机制通过跨视角与跨区域的几何-视觉约束,解决:

  • 新生成区域与已有场景的拼接问题
  • 多视角下的结构稳定性
  • 长程空间一致性(long-range consistency)

这一能力,本质上是“世界模型”区别于普通生成模型的关键:记住空间,而不是只生成局部


WorldMirror2.0:数字孪生能力增强

升级后的 WorldMirror2.0,将能力进一步延伸到真实世界复刻(digital twin):

  • 一次性预测密集点云
  • 同步估计相机参数
  • 构建高精度三维重建

这使其不仅能“造世界”,还能“复刻世界”,在工业仿真、自动驾驶数据生成等场景中具备直接价值。


与主流路线对比:从 Genie 到 World Model

当前国际上类似方向的代表模型包括 等,其重点在于从视频生成可交互环境。

相比之下,HY-World2.0 的差异点主要体现在:

  • 资产可编辑性:输出可直接进入建模与引擎流程
  • 物理属性支持:具备碰撞体等基础物理特性
  • 工程对接能力:原生兼容游戏引擎工作流

换句话说,Genie 更偏“可玩性原型”,而 HY-World2.0 更偏“生产级资产生成”。


对 AI 工程与产业的意义

从 AI 技术社区视角看,这一发布的价值不止于模型本身,而在于其对“3D 内容生产链”的重塑:

1. 游戏与虚拟内容生产提效

关卡设计、场景搭建等环节有望从“人工建模”转向“AI 生成 + 人工精修”。

2. 具身智能训练数据生成

机器人与自动驾驶需要大量3D环境,世界模型可作为仿真数据引擎。

3. 数字孪生与工业仿真

真实世界建模成本显著下降,加速工业数字化进程。

4. AI Agent 的空间落地

从文本与代码世界,走向“可行动的三维环境”。


开源信号:世界模型进入工程化阶段

值得注意的是,腾讯选择将 HY-World2.0 开源,这一决策本身释放出两个信号:

  • 世界模型正在从研究探索走向工程落地
  • 生态竞争开始从“模型能力”扩展到“工具链与标准”

当 3D 资产可以像代码、图像一样被生成、编辑与复用时,围绕其展开的开发框架、数据格式与渲染引擎,都会成为新的基础设施层。


结语:从“捏物体”到“造世界”的临界点

HY-World2.0 的发布,本质上标志着一个阶段性拐点:3D AI 不再只是生成单一资产,而是开始具备构建完整环境的能力。

在大模型演进路径中,这一步的意义类似于:

  • 从函数调用到多步 Agent
  • 从单轮对话到长程记忆

而在三维世界里,对应的正是:从对象生成,到世界建模

一旦这一能力成熟,AI 将不仅参与内容创作,而是直接参与“虚拟世界的构建”。这对游戏、XR、机器人乃至未来互联网形态,都会产生持续影响。

7 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 22 ms
Developed with Cursor