当生成式 AI 从“生成内容”走向“生成主体”,短视频创作正在发生一场更深层的变化。YouTube 最新推出的 AI 虚拟形象功能,允许用户创建一个在外观与声音上高度还原自身的数字分身,并直接参与 Shorts 内容生成。
这意味着,AI 不再只是创作工具,而开始成为“替身创作者”——一个可被调用、可被编排的个人化 Agent。
该功能的核心流程极为简化:
相比传统视频生成(依赖素材或模板),这一模式的关键变化在于:
创作的输入从“内容素材”,转向“个人身份模型”。
技术上,这背后涉及三类能力的融合:
最终形成一个可被反复调用的“个人生成接口”。
YouTube 此次更新,延续了此前将 Veo 模型引入 Shorts 的路径,但关键升级在于“人”的加入。
此前能力侧重:
而这次则进一步实现:
在调用路径上,用户可以通过 Gemini 入口触发该能力,这一设计隐含了一个趋势:
视频生成能力正在被抽象为 Agent 工具,而非单一模型接口。
换句话说,未来的视频创作不再是“剪辑 + 拍摄”,而是:
这与当前多模态 Agent 的发展方向高度一致。
目前单次生成最长 8 秒的视频片段,这一限制并非产品策略,而更多来自技术与成本约束:
因此,当前方案采用“短片段 + 拼接”的方式:
这与早期 diffusion 图像生成从单帧走向视频的路径类似,是一种典型的渐进式工程实现。
在“生成你自己”这一高敏感场景下,YouTube 将安全机制前置为核心设计:
这一设计体现出一个行业共识:
当 AI 开始复制“人”,数据控制权必须回到用户手中。
AI 虚拟形象的引入,将直接改变短视频创作方式:
尤其在创作者经济中,“人设”本身就是核心资产。
当这一资产可以被复制与自动生成时,其稀缺性将被重新定义。
从技术演进路径看,这一功能不仅是视频工具升级,更可能是个人 Agent 的雏形:
未来演进方向可能包括:
届时,“你本人”与“你的 AI 分身”之间的界限,将进一步模糊。
YouTube 推出的 AI 虚拟形象功能,本质上将生成式 AI 推向一个新的阶段:
从“生成内容”,到“生成创作者”。
这不仅改变了内容生产方式,也引入了新的技术与伦理问题:
可以确定的是,在多模态模型与 Agent 技术持续演进的背景下,“生成你自己”将成为下一轮 AI 应用爆发的重要方向。