当大模型从文本与图像扩展到视频与空间理解,下一阶段的竞争焦点,正在从“内容生成”转向“世界生成”。
近日,阿里巴巴与腾讯几乎同步发布面向 3D 内容生成的模型体系:前者推出 Happy Oyster,主打可交互三维视频生成;后者开源混元 3D 世界模型 2.0,强调从文本、图像到完整三维世界的构建与模拟能力。这一时间点上的集中发力,标志着国内大厂正式将 AI 竞争推进至“3D 空间生成”层。
过去两年,多模态模型的核心进展集中在:
但这些能力大多停留在“平面内容”层面,缺乏对空间结构与物理关系的建模。
3D 世界模型的出现,试图解决这一断层:
阿里与腾讯此次发布的模型,本质上都在向这一目标迈进——让 AI 从“内容生成器”进化为“虚拟世界构建器”。
阿里推出的 Happy Oyster,强调“可交互三维视频”这一概念,其核心能力可以理解为:
这一方向的关键在于“视频 + 3D”的融合。传统视频生成模型通常基于时序一致性优化,而 3D 视频则需要额外处理:
如果这些问题能够稳定解决,将显著降低游戏过场动画、虚拟拍摄等内容的制作成本。
相比之下,腾讯的路径更偏向“工业化内容生产”。
混元 3D 世界模型 2.0 的核心特点在于:
这意味着模型输出不再是“展示内容”,而是“可用资产”。
从技术角度看,这涉及多个关键能力:
此外,其支持通过真实视频或多视角图像构建数字孪生场景,说明模型已具备一定程度的“现实世界映射能力”。
腾讯强调的 Mesh、点云、3DGS 等输出格式,实际上是游戏与 3D 内容生产中的核心资产形态。
这一点非常关键,因为它决定了 AI 是否能真正进入生产流程:
当 AI 模型可以直接生成这些资产,并无缝接入 Unity、UE 等引擎时,其角色就从“辅助工具”升级为“生产节点”。
这将对传统工作流产生冲击:
从更底层看,“3D 世界模型”并不仅仅是生成模型的延伸,而是三种能力的融合:
根据输入(文本、图像、视频)生成场景与对象。
识别空间结构、物体关系与语义信息。
支持物理行为、交互反馈与动态变化。
只有同时具备这三点,模型才能真正成为“世界级 AI”,而不仅是内容工具。
腾讯模型中提到的“世界模拟”,正是向这一方向的尝试。
尽管前景广阔,3D 世界模型在工程上仍面临显著挑战:
这也是为何两家公司都强调“接入现有工作流”——只有降低接入成本,才能推动实际落地。
如果说文本与图像生成改变的是“创意表达”,那么 3D 世界模型改变的,是内容工业的“生产方式”。
其潜在影响包括:
更重要的是,这些能力将推动 AI 从“创作辅助”走向“生产主导”。
阿里与腾讯同日发布 3D 模型,并非偶然巧合,而是行业进入新阶段的信号:
当 2D 内容生成逐渐成熟,竞争必然转向更高维度的空间与交互。
未来的 AI,不再只是生成一张图、一段视频,而是生成一个可以被探索、编辑、甚至运行的世界。
而谁能率先打通“生成 → 资产 → 引擎 → 交互”的完整链路,谁就有机会在下一代数字内容基础设施中占据核心位置。