SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction

作者： Xinyuan Chen, Yaohui Wang, Lingjun Zhang, Shaobin Zhuang, Xin Ma, Jiashuo Yu, Yali Wang, Dahua Lin, Yu Qiao, Ziwei Liu

提交日期： 2023年10月31日

主题/分类： 计算机视觉与模式识别 (cs.CV)

摘要：
近年来，视频生成取得了实质性进展，并产生了逼真的结果。然而，现有的AI生成视频通常是描绘单一场景的非常短的片段（“镜头级”）。为了呈现连贯的长视频（“故事级”），需要在不同片段之间实现富有创意的过渡和预测效果。本文提出了一种短到长视频扩散模型SEINE，专注于生成式过渡和预测。其目标是生成高质量的长视频，在场景之间以及不同长度的镜头级视频之间实现平滑且富有创意的过渡。具体来说，我们提出了一种随机掩码视频扩散模型，以基于文本描述自动生成过渡。通过提供不同场景的图像作为输入，并结合基于文本的控制，我们的模型生成的过渡视频确保了连贯性和视觉质量。此外，该模型可以轻松扩展到各种任务，如图像到视频动画和自回归视频预测。为了对这一新的生成任务进行全面评估，我们提出了三个评估平滑和创意过渡的标准：时间一致性、语义相似性和视频-文本语义对齐。大量实验验证了我们的方法在生成式过渡和预测方面优于现有方法的有效性，使得创建故事级长视频成为可能。

项目页面： https://vchitect.github.io/SEINE-project/

论文地址：https://arxiv.org/abs/2310.20700v1

12 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

SEINE：面向长视频生成的统一扩散建模方法

SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction