作者: Yixin Liu, Kai Zhang, Yuan Li, Zhiling Yan, Chujie Gao, Ruoxi Chen, Zhengqing Yuan, Yue Huang, Hanchi Sun, Jianfeng Gao, Lifang He, Lichao Sun
提交/修订日期: 2024年2月27日提交,2024年4月17日最后修订 (v3)
摘要:
Sora是由OpenAI于2024年2月发布的文生视频生成式AI模型。该模型经过训练,能够根据文本指令生成逼真或富有想象力的场景视频,并显示出模拟物理世界的潜力。基于公开的技术报告和逆向工程,本文对该模型的背景、相关技术、应用、现存挑战以及文生视频AI模型的未来方向进行了全面的综述。我们首先追溯了Sora的发展历程,并研究了构建这个“世界模拟器”所使用的底层技术。然后,我们详细描述了Sora在从电影制作、教育到营销等多个行业中的应用和潜在影响。我们讨论了要广泛部署Sora所需解决的主要挑战和限制,例如确保安全且无偏见的视频生成。最后,我们讨论了Sora及视频生成模型在未来的发展,以及该领域的进步如何能够实现新的人机交互方式,提升视频生成的生产力和创造力。
主题/分类:
- 计算机视觉与模式识别 (cs.CV)
- 人工智能 (cs.AI)
- 机器学习 (cs.LG)
其他信息:
- 论文共37页,包含18张图。
- 相关代码资源可在GitHub获取:https://github.com/lichao-sun/SoraReview