OA0 = Omni AI 0
OA0 是一个探索 AI 的论坛
现在注册
已注册用户请  登录
OA0  ›  代码  ›  CogVideoX — 智谱开源的通用视频生成大模型

CogVideoX — 智谱开源的通用视频生成大模型

 
  rest ·  2026-02-28 12:45:00 · 159 次点击  · 0 条评论  

CogVideo & CogVideoX

中文阅读

日本語で読む

在线体验 CogVideoX-5B 模型: 🤗 Huggingface Space 🤖 ModelScope Space

📚 查阅 论文用户指南

👋 加入我们的 微信群Discord

📍 访问 清影API 平台 体验更大规模的商用视频生成模型。

项目动态

  • 🔥🔥 新闻: 2025/03/24: 我们发布了 CogKit,一个用于 CogView4CogVideoX 系列的微调与推理框架。该工具包可助您充分探索和利用我们的多模态生成模型。
  • 🔥 新闻: 2025/02/28: CogVideoX-5BCogVideoX1.5-5B 现已支持 DDIM 逆向过程。查看详情请点击此处
  • 🔥 新闻: 2025/01/08: 我们更新了基于 diffusers 版本模型的 Lora 微调代码,该版本显存占用更低。详情请见此处
  • 🔥 新闻: 2024/11/15: 我们发布了 CogVideoX1.5 模型的 diffusers 版本。仅需微调参数即可沿用之前的代码。
  • 🔥 新闻: 2024/11/08: 我们发布了 CogVideoX1.5 模型。CogVideoX1.5 是开源模型 CogVideoX 的升级版。
    CogVideoX1.5-5B 系列支持更高分辨率的 10 秒视频,CogVideoX1.5-5B-I2V 支持任意分辨率的视频生成。
    SAT 代码已更新,diffusers 版本仍在适配中。下载 SAT 版本代码请点击此处
  • 🔥 新闻: 2024/10/13: 一个更经济高效的 CogVideoX-5B 微调框架 cogvideox-factory 已发布,支持单张 4090 GPU 进行微调,并兼容多种分辨率。欢迎使用!
  • 🔥 新闻: 2024/10/10: 我们更新了技术报告。请点击此处查阅。新增了更多训练细节和一个演示视频。查看演示请点击此处
  • 🔥 新闻: 2024/10/09: 我们在飞书上公开了 CogVideoX 微调的技术文档,进一步提升了部署灵活性。公开文档中的所有示例均可完全复现。
  • 🔥 新闻: 2024/9/19: 我们开源了 CogVideoX 系列的图生视频模型 CogVideoX-5B-I2V。该模型可将图像作为背景输入,结合提示词生成视频,可控性更强。至此,CogVideoX 系列模型已支持文生视频、视频续写和图生视频三大任务。欢迎在线体验:体验地址
  • 🔥 2024/9/19: CogVideoX 训练过程中用于将视频数据转为文本描述的 Caption 模型 CogVLM2-Caption 已开源。欢迎下载使用。
  • 🔥 2024/8/27: 我们开源了 CogVideoX 系列中更大的模型 CogVideoX-5B。我们大幅优化了模型的推理性能,显著降低了推理门槛。
    您可以在 GTX 1080TI 等较旧 GPU 上运行 CogVideoX-2B,在 RTX 3060 等桌面级 GPU 上运行 CogVideoX-5B。请严格按照 requirements 更新安装依赖,并参考 cli_demo 中的推理代码。此外,CogVideoX-2B 模型的开源许可证已变更为 Apache 2.0 许可证
  • 🔥 2024/8/6: 我们开源了用于 CogVideoX-2B3D Causal VAE,可实现几乎无损的视频重建。
  • 🔥 2024/8/6: 我们开源了 CogVideoX 系列视频生成模型的第一个模型 CogVideoX-2B
  • 🌱 起源: 2022/5/19: 我们开源了 CogVideo 视频生成模型(现可在 CogVideo 分支查看)。这是首个开源的大规模基于 Transformer 的文生视频模型。技术细节请查阅 ICLR'23 论文

目录

快速跳转至特定章节:

快速开始

提示词优化

在运行模型前,请参考此指南,了解我们如何使用 GLM-4 等大模型(或其他同类产品,如 GPT-4)来优化提示词。这至关重要,因为模型是在长提示词上训练的,好的提示词直接影响视频生成质量。

SAT

请确保您的 Python 版本在 3.10 到 3.12 之间(含 3.10 和 3.12)。

按照 sat_demo 中的说明操作:包含 SAT 权重的推理代码和微调代码。建议基于 CogVideoX 模型结构进行改进。创新型研究人员可使用此代码更好地进行快速迭代和开发。

Diffusers

请确保您的 Python 版本在 3.10 到 3.12 之间(含 3.10 和 3.12)。

pip install -r requirements.txt

然后按照 diffusers_demo 操作:对推理代码进行更详细的解释,说明常见参数的意义。

关于量化推理的更多细节,请参考 diffusers-torchao。结合 Diffusers 和 TorchAO,可以实现量化推理,从而节省内存,在某些情况下编译后还能加速。在 A100 和 H100 上各种设置下的完整内存和时间基准测试已发布在 diffusers-torchao

效果展示

CogVideoX-5B

CogVideoX-2B

查看效果展示对应的提示词,请点击此处

模型介绍

CogVideoX 是源自 清影 的视频生成模型的开源版本。下表展示了我们目前提供的视频生成模型列表及其基础信息。

模型名称 CogVideoX1.5-5B (最新) CogVideoX1.5-5B-I2V (最新) CogVideoX-2B CogVideoX-5B CogVideoX-5B-I2V
发布日期 2024年11月8日 2024年11月8日 2024年8月6日 2024年8月27日 2024年9月19日
视频分辨率 1360 * 768 Min(W, H) = 768
768 ≤ Max(W, H) ≤ 1360
Max(W, H) % 16 = 0
720 * 480
帧数 应为 16N + 1,其中 N <= 10 (默认 81) 应为 8N + 1,其中 N <= 6 (默认 49)
推理精度 BF16 (推荐), FP16, FP32, FP8*, INT8, 不支持: INT4 FP16*(推荐), BF16, FP32, FP8*, INT8, 不支持: INT4 BF16 (推荐), FP16, FP32, FP8*, INT8, 不支持: INT4
单卡显存占用
SAT BF16: 76GB
diffusers BF16: 从 10GB* 起
diffusers INT8(torchao): 从 7GB* 起
SAT FP16: 18GB
diffusers FP16: 最低 4GB*
diffusers INT8 (torchao): 最低 3.6GB*
SAT BF16: 26GB
diffusers BF16 : 最低 5GB*
diffusers INT8 (torchao): 最低 4.4GB*
多卡显存占用 使用 diffusers,BF16: 24GB*
使用 diffusers,FP16: 10GB*
使用 diffusers,BF16: 15GB*
推理速度
(步数 = 50, FP/BF16)
单张 A100: ~1000 秒 (5秒视频)
单张 H100: ~550 秒 (5秒视频)
单张 A100: ~90 秒
单张 H100: ~45 秒
单张 A100: ~180 秒
单张 H100: ~90 秒
提示词
159 次点击  ∙  0 人收藏  
登录后收藏  
目前尚无回复
0 条回复
About   ·   Help   ·    
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor