在线体验 CogVideoX-5B 模型: 🤗 Huggingface Space 或 🤖 ModelScope Space
📍 访问 清影 和 API 平台 体验更大规模的商用视频生成模型。
2025/03/24: 我们发布了 CogKit,一个用于 CogView4 和 CogVideoX 系列的微调与推理框架。该工具包可助您充分探索和利用我们的多模态生成模型。2025/02/28: CogVideoX-5B 和 CogVideoX1.5-5B 现已支持 DDIM 逆向过程。查看详情请点击此处。2025/01/08: 我们更新了基于 diffusers 版本模型的 Lora 微调代码,该版本显存占用更低。详情请见此处。2024/11/15: 我们发布了 CogVideoX1.5 模型的 diffusers 版本。仅需微调参数即可沿用之前的代码。2024/11/08: 我们发布了 CogVideoX1.5 模型。CogVideoX1.5 是开源模型 CogVideoX 的升级版。2024/10/13: 一个更经济高效的 CogVideoX-5B 微调框架 cogvideox-factory 已发布,支持单张 4090 GPU 进行微调,并兼容多种分辨率。欢迎使用!2024/10/10: 我们更新了技术报告。请点击此处查阅。新增了更多训练细节和一个演示视频。查看演示请点击此处。2024/10/09: 我们在飞书上公开了 CogVideoX 微调的技术文档,进一步提升了部署灵活性。公开文档中的所有示例均可完全复现。2024/9/19: 我们开源了 CogVideoX 系列的图生视频模型 CogVideoX-5B-I2V。该模型可将图像作为背景输入,结合提示词生成视频,可控性更强。至此,CogVideoX 系列模型已支持文生视频、视频续写和图生视频三大任务。欢迎在线体验:体验地址。2024/9/19: CogVideoX 训练过程中用于将视频数据转为文本描述的 Caption 模型 CogVLM2-Caption 已开源。欢迎下载使用。2024/8/27: 我们开源了 CogVideoX 系列中更大的模型 CogVideoX-5B。我们大幅优化了模型的推理性能,显著降低了推理门槛。GTX 1080TI 等较旧 GPU 上运行 CogVideoX-2B,在 RTX 3060 等桌面级 GPU 上运行 CogVideoX-5B。请严格按照 requirements 更新安装依赖,并参考 cli_demo 中的推理代码。此外,CogVideoX-2B 模型的开源许可证已变更为 Apache 2.0 许可证。2024/8/6: 我们开源了用于 CogVideoX-2B 的 3D Causal VAE,可实现几乎无损的视频重建。2024/8/6: 我们开源了 CogVideoX 系列视频生成模型的第一个模型 CogVideoX-2B。2022/5/19: 我们开源了 CogVideo 视频生成模型(现可在 CogVideo 分支查看)。这是首个开源的大规模基于 Transformer 的文生视频模型。技术细节请查阅 ICLR'23 论文。快速跳转至特定章节:
在运行模型前,请参考此指南,了解我们如何使用 GLM-4 等大模型(或其他同类产品,如 GPT-4)来优化提示词。这至关重要,因为模型是在长提示词上训练的,好的提示词直接影响视频生成质量。
请确保您的 Python 版本在 3.10 到 3.12 之间(含 3.10 和 3.12)。
按照 sat_demo 中的说明操作:包含 SAT 权重的推理代码和微调代码。建议基于 CogVideoX 模型结构进行改进。创新型研究人员可使用此代码更好地进行快速迭代和开发。
请确保您的 Python 版本在 3.10 到 3.12 之间(含 3.10 和 3.12)。
pip install -r requirements.txt
然后按照 diffusers_demo 操作:对推理代码进行更详细的解释,说明常见参数的意义。
关于量化推理的更多细节,请参考 diffusers-torchao。结合 Diffusers 和 TorchAO,可以实现量化推理,从而节省内存,在某些情况下编译后还能加速。在 A100 和 H100 上各种设置下的完整内存和时间基准测试已发布在 diffusers-torchao。
查看效果展示对应的提示词,请点击此处
CogVideoX 是源自 清影 的视频生成模型的开源版本。下表展示了我们目前提供的视频生成模型列表及其基础信息。
| 模型名称 | CogVideoX1.5-5B (最新) | CogVideoX1.5-5B-I2V (最新) | CogVideoX-2B | CogVideoX-5B | CogVideoX-5B-I2V |
|---|---|---|---|---|---|
| 发布日期 | 2024年11月8日 | 2024年11月8日 | 2024年8月6日 | 2024年8月27日 | 2024年9月19日 |
| 视频分辨率 | 1360 * 768 | Min(W, H) = 768 768 ≤ Max(W, H) ≤ 1360 Max(W, H) % 16 = 0 |
720 * 480 | ||
| 帧数 | 应为 16N + 1,其中 N <= 10 (默认 81) | 应为 8N + 1,其中 N <= 6 (默认 49) | |||
| 推理精度 | BF16 (推荐), FP16, FP32, FP8*, INT8, 不支持: INT4 | FP16*(推荐), BF16, FP32, FP8*, INT8, 不支持: INT4 | BF16 (推荐), FP16, FP32, FP8*, INT8, 不支持: INT4 | ||
| 单卡显存占用 |
SAT BF16: 76GB diffusers BF16: 从 10GB* 起 diffusers INT8(torchao): 从 7GB* 起 |
SAT FP16: 18GB diffusers FP16: 最低 4GB* diffusers INT8 (torchao): 最低 3.6GB* |
SAT BF16: 26GB diffusers BF16 : 最低 5GB* diffusers INT8 (torchao): 最低 4.4GB* |
||
| 多卡显存占用 | 使用 diffusers,BF16: 24GB* |
使用 diffusers,FP16: 10GB* |
使用 diffusers,BF16: 15GB* |
||
| 推理速度 (步数 = 50, FP/BF16) |
单张 A100: ~1000 秒 (5秒视频) 单张 H100: ~550 秒 (5秒视频) |
单张 A100: ~90 秒 单张 H100: ~45 秒 |
单张 A100: ~180 秒 单张 H100: ~90 秒 |
||
| 提示词
目前尚无回复
| |||||