SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction

作者： Xinyuan Chen, Yaohui Wang, Lingjun Zhang, Shaobin Zhuang, Xin Ma, Jiashuo Yu, Yali Wang, Dahua Lin, Yu Qiao, Ziwei Liu

提交/修订日期： 2023年10月31日提交，2023年11月6日修订 (v2)

主题/分类： Computer Vision and Pattern Recognition (cs.CV)

摘要：
近年来，视频生成技术取得了实质性进展，能够生成逼真的结果。然而，现有的AI生成视频通常是描绘单一场景的非常短的片段（“镜头级”）。为了生成连贯的长视频（“故事级”），需要在不同片段之间实现创造性的过渡和预测效果。本文提出了一种短到长视频扩散模型——SEINE，专注于生成式过渡和预测。其目标是生成具有平滑且富有创意的场景过渡以及不同长度镜头级视频的高质量长视频。具体而言，我们提出了一种随机掩码视频扩散模型，以基于文本描述自动生成过渡。通过提供不同场景的图像作为输入，并结合基于文本的控制，我们的模型能够生成确保连贯性和视觉质量的过渡视频。此外，该模型可以轻松扩展到各种任务，如图像到视频动画和自回归视频预测。为了对这一新的生成任务进行全面评估，我们提出了三个用于评估平滑和创造性过渡的标准：时间一致性、语义相似性和视频-文本语义对齐。大量实验验证了我们的方法在生成式过渡和预测方面优于现有方法的有效性，从而能够创建故事级的长视频。

项目页面： https://vchitect.github.io/SEINE-project/

论文地址：https://arxiv.org/abs/2310.20700

24 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

SEINE：支持长时一致性的文本到视频生成方法

SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction