CogVideo：基于Transformer的大规模预训练文本到视频生成模型

作者： Wenyi Hong, Ming Ding, Wendi Zheng, Xinghan Liu, Jie Tang

提交日期： 2022年5月29日

摘要：
大规模预训练的Transformer模型已在文本（GPT-3）和文本到图像（DALL-E 和 CogView）生成领域创造了里程碑。然而，其在视频生成领域的应用仍面临诸多挑战：潜在巨大的计算成本使得从头开始训练变得难以承受；文本-视频数据集的稀缺性及其弱相关性阻碍了模型对复杂运动语义的理解。在本工作中，我们提出了一个拥有90亿参数的Transformer模型CogVideo，它通过继承一个预训练的文本到图像模型CogView2进行训练。我们还提出了一种多帧率分层训练策略，以更好地对齐文本和视频片段。作为（可能是）第一个开源的大规模预训练文本到视频模型，CogVideo在机器和人工评估中均以较大优势超越了所有公开可用的模型。