Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models

作者： Yixin Liu, Kai Zhang, Yuan Li, Zhiling Yan, Chujie Gao, Ruoxi Chen, Zhengqing Yuan, Yue Huang, Hanchi Sun, Jianfeng Gao, Lifang He, Lichao Sun

提交/修订日期： 2024年2月27日提交，2024年4月17日最后修订 (v3)

摘要：
Sora是由OpenAI于2024年2月发布的文生视频生成式AI模型。该模型经过训练，能够根据文本指令生成逼真或富有想象力的场景视频，并显示出模拟物理世界的潜力。基于公开的技术报告和逆向工程，本文对该模型的背景、相关技术、应用、现存挑战以及文生视频AI模型的未来方向进行了全面的综述。我们首先追溯了Sora的发展历程，并研究了构建这个“世界模拟器”所使用的底层技术。然后，我们详细描述了Sora在从电影制作、教育到营销等多个行业中的应用和潜在影响。我们讨论了要广泛部署Sora所需解决的主要挑战和限制，例如确保安全且无偏见的视频生成。最后，我们讨论了Sora及视频生成模型在未来的发展，以及该领域的进步如何能够实现新的人机交互方式，提升视频生成的生产力和创造力。

主题/分类：
- 计算机视觉与模式识别 (cs.CV)
- 人工智能 (cs.AI)
- 机器学习 (cs.LG)

其他信息：
- 论文共37页，包含18张图。
- 相关代码资源可在GitHub获取：https://github.com/lichao-sun/SoraReview

论文地址：https://arxiv.org/abs/2402.17177

42 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

Sora 技术报告：大规模视频生成模型的建模思路

Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models