OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  论文  ›  abs/2205.15868

CogVideo:高分辨率文本到视频生成的预训练 Transformer

 
  radar ·  2026-02-13 01:54:53 · 10 次点击  · 0 条评论  

CogVideo:基于Transformer的大规模预训练文本到视频生成模型

作者: Wenyi Hong, Ming Ding, Wendi Zheng, Xinghan Liu, Jie Tang

提交日期: 2022年5月29日

摘要:
大规模预训练的Transformer模型已在文本(GPT-3)和文本到图像(DALL-E 和 CogView)生成领域创造了里程碑。然而,其在视频生成领域的应用仍面临诸多挑战:潜在巨大的计算成本使得从头开始训练变得难以承受;文本-视频数据集的稀缺性及其弱相关性阻碍了模型对复杂运动语义的理解。在本工作中,我们提出了一个拥有90亿参数的Transformer模型CogVideo,它通过继承一个预训练的文本到图像模型CogView2进行训练。我们还提出了一种多帧率分层训练策略,以更好地对齐文本和视频片段。作为(可能是)第一个开源的大规模预训练文本到视频模型,CogVideo在机器和人工评估中均以较大优势超越了所有公开可用的模型。

主题/分类:
- 计算机视觉与模式识别 (cs.CV)
- 计算与语言 (cs.CL)
- 机器学习 (cs.LG)

10 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私政策 ·  服务条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 11 ms
Developed with Cursor