作者: Xinyuan Chen, Yaohui Wang, Lingjun Zhang, Shaobin Zhuang, Xin Ma, Jiashuo Yu, Yali Wang, Dahua Lin, Yu Qiao, Ziwei Liu
提交日期: 2023年10月31日
主题/分类: 计算机视觉与模式识别 (cs.CV)
摘要:
近年来,视频生成取得了实质性进展,并产生了逼真的结果。然而,现有的AI生成视频通常是描绘单一场景的非常短的片段(“镜头级”)。为了呈现连贯的长视频(“故事级”),需要在不同片段之间实现富有创意的过渡和预测效果。本文提出了一种短到长视频扩散模型SEINE,专注于生成式过渡和预测。其目标是生成高质量的长视频,在场景之间以及不同长度的镜头级视频之间实现平滑且富有创意的过渡。具体来说,我们提出了一种随机掩码视频扩散模型,以基于文本描述自动生成过渡。通过提供不同场景的图像作为输入,并结合基于文本的控制,我们的模型生成的过渡视频确保了连贯性和视觉质量。此外,该模型可以轻松扩展到各种任务,如图像到视频动画和自回归视频预测。为了对这一新的生成任务进行全面评估,我们提出了三个评估平滑和创意过渡的标准:时间一致性、语义相似性和视频-文本语义对齐。大量实验验证了我们的方法在生成式过渡和预测方面优于现有方法的有效性,使得创建故事级长视频成为可能。
项目页面: https://vchitect.github.io/SEINE-project/