CogVideo & CogVideoX

中文阅读

日本語で読む

在线体验 CogVideoX-5B 模型： 🤗 Huggingface Space 或 🤖 ModelScope Space

📚 查阅论文与用户指南

👋 加入我们的微信群和 Discord

📍 访问清影和 API 平台体验更大规模的商用视频生成模型。

项目动态

🔥🔥 新闻: 2025/03/24: 我们发布了 CogKit，一个用于 CogView4 和 CogVideoX 系列的微调与推理框架。该工具包可助您充分探索和利用我们的多模态生成模型。
🔥 新闻: 2025/02/28: CogVideoX-5B 和 CogVideoX1.5-5B 现已支持 DDIM 逆向过程。查看详情请点击此处。
🔥 新闻: 2025/01/08: 我们更新了基于 diffusers 版本模型的 Lora 微调代码，该版本显存占用更低。详情请见此处。
🔥 新闻: 2024/11/15: 我们发布了 CogVideoX1.5 模型的 diffusers 版本。仅需微调参数即可沿用之前的代码。
🔥 新闻: 2024/11/08: 我们发布了 CogVideoX1.5 模型。CogVideoX1.5 是开源模型 CogVideoX 的升级版。
CogVideoX1.5-5B 系列支持更高分辨率的 10 秒视频，CogVideoX1.5-5B-I2V 支持任意分辨率的视频生成。
SAT 代码已更新，diffusers 版本仍在适配中。下载 SAT 版本代码请点击此处。
🔥 新闻: 2024/10/13: 一个更经济高效的 CogVideoX-5B 微调框架 cogvideox-factory 已发布，支持单张 4090 GPU 进行微调，并兼容多种分辨率。欢迎使用！
🔥 新闻: 2024/10/10: 我们更新了技术报告。请点击此处查阅。新增了更多训练细节和一个演示视频。查看演示请点击此处。
🔥 新闻: 2024/10/09: 我们在飞书上公开了 CogVideoX 微调的技术文档，进一步提升了部署灵活性。公开文档中的所有示例均可完全复现。
🔥 新闻: 2024/9/19: 我们开源了 CogVideoX 系列的图生视频模型 CogVideoX-5B-I2V。该模型可将图像作为背景输入，结合提示词生成视频，可控性更强。至此，CogVideoX 系列模型已支持文生视频、视频续写和图生视频三大任务。欢迎在线体验：体验地址。
🔥 2024/9/19: CogVideoX 训练过程中用于将视频数据转为文本描述的 Caption 模型 CogVLM2-Caption 已开源。欢迎下载使用。
🔥 2024/8/27: 我们开源了 CogVideoX 系列中更大的模型 CogVideoX-5B。我们大幅优化了模型的推理性能，显著降低了推理门槛。
您可以在 GTX 1080TI 等较旧 GPU 上运行 CogVideoX-2B，在 RTX 3060 等桌面级 GPU 上运行 CogVideoX-5B。请严格按照 requirements 更新安装依赖，并参考 cli_demo 中的推理代码。此外，CogVideoX-2B 模型的开源许可证已变更为 Apache 2.0 许可证。
🔥 2024/8/6: 我们开源了用于 CogVideoX-2B 的 3D Causal VAE，可实现几乎无损的视频重建。
🔥 2024/8/6: 我们开源了 CogVideoX 系列视频生成模型的第一个模型 CogVideoX-2B。
🌱 起源: 2022/5/19: 我们开源了 CogVideo 视频生成模型（现可在 CogVideo 分支查看）。这是首个开源的大规模基于 Transformer 的文生视频模型。技术细节请查阅 ICLR'23 论文。

快速开始

提示词优化

在运行模型前，请参考此指南，了解我们如何使用 GLM-4 等大模型（或其他同类产品，如 GPT-4）来优化提示词。这至关重要，因为模型是在长提示词上训练的，好的提示词直接影响视频生成质量。

SAT

请确保您的 Python 版本在 3.10 到 3.12 之间（含 3.10 和 3.12）。

按照 sat_demo 中的说明操作：包含 SAT 权重的推理代码和微调代码。建议基于 CogVideoX 模型结构进行改进。创新型研究人员可使用此代码更好地进行快速迭代和开发。

Diffusers

请确保您的 Python 版本在 3.10 到 3.12 之间（含 3.10 和 3.12）。

pip install -r requirements.txt

然后按照 diffusers_demo 操作：对推理代码进行更详细的解释，说明常见参数的意义。

关于量化推理的更多细节，请参考 diffusers-torchao。结合 Diffusers 和 TorchAO，可以实现量化推理，从而节省内存，在某些情况下编译后还能加速。在 A100 和 H100 上各种设置下的完整内存和时间基准测试已发布在 diffusers-torchao。

效果展示

CogVideoX-5B

CogVideoX-2B

查看效果展示对应的提示词，请点击此处

模型介绍

CogVideoX 是源自清影的视频生成模型的开源版本。下表展示了我们目前提供的视频生成模型列表及其基础信息。

模型名称	CogVideoX1.5-5B (最新)	CogVideoX1.5-5B-I2V (最新)	CogVideoX-2B	CogVideoX-5B	CogVideoX-5B-I2V
发布日期	2024年11月8日	2024年11月8日	2024年8月6日	2024年8月27日	2024年9月19日
视频分辨率	1360 * 768	Min(W, H) = 768 768 ≤ Max(W, H) ≤ 1360 Max(W, H) % 16 = 0	720 * 480
帧数	应为 16N + 1，其中 N <= 10 (默认 81)		应为 8N + 1，其中 N <= 6 (默认 49)
推理精度	BF16 (推荐), FP16, FP32, FP8*, INT8, 不支持: INT4		*FP16(推荐)*, BF16, FP32, FP8, INT8, 不支持: INT4	BF16 (推荐), FP16, FP32, FP8*, INT8, 不支持: INT4
单卡显存占用	SAT BF16: 76GB *diffusers BF16: 从 10GB 起 diffusers INT8(torchao): 从 7GB* 起**		SAT FP16: 18GB diffusers FP16: 最低 4GB* diffusers INT8 (torchao): 最低 3.6GB*	SAT BF16: 26GB diffusers BF16 : 最低 5GB* diffusers INT8 (torchao): 最低 4.4GB*
多卡显存占用	使用 diffusers，BF16: 24GB*		使用 diffusers，FP16: 10GB*	使用 diffusers，BF16: 15GB*
推理速度 (步数 = 50, FP/BF16)	单张 A100: ~1000 秒 (5秒视频) 单张 H100: ~550 秒 (5秒视频)		单张 A100: ~90 秒单张 H100: ~45 秒	单张 A100: ~180 秒单张 H100: ~90 秒
提示词

项目地址：https://github.com/THUDM/CogVideo

180 次点击 ∙ 0 人收藏

登录后收藏

0 条回复

CogVideoX — 智谱开源的通用视频生成大模型