简体中文 | English
🔥 2025.04.21 FLUX 多模态文生图大模型功能抢先体验
🔥 2025.07.14 发布 Fast-Diffusers 扩散模型推理加速工具包
* Training-Free:新增 T-gate、PAB、TeaCache、TaylorSeer、BlockDance 等 SOTA Training-Free 算法。发布了自研算法 SortBlock、TeaBlockCache、CG-Taylor 和 FirstBlockTaylor 算法,在保证生成图像质量的同时,实现 2 倍以上的端到端推理加速效果。
* 扩散模型时间步蒸馏:新增 PCM、DMD2 等蒸馏算法,并提供了多种蒸馏 loss 供开发者灵活搭配。同时基于上述蒸馏算法,发布了基于 FLUX-dev 的 4 步蒸馏模型,配合飞桨深度学习编译器,推理时延降低至 1.66 秒。
🔥 2025.05.09 发布 PaddleMIX v3.0-beta
* 多模态理解:新增 Qwen2.5VL 系列、DeepSeek-VL2 等;发布自研 PP-DocBee 文档理解多模态大模型,新增 Qwen2.5VL 高性能推理部署,性能领先 vllm 11.5%。
* 多模态生成:发布 PPDiffusers 0.29.1 版本,发布自研可控视频模型 PP-VCtrl,新增对 SD3 ControlNet 和 SD3.5 的支持。
🎉 2025.01.08 发布自研 PP-VCtrl 视频生成控制模型
* PP-VCtrl 是一个通用的视频生成控制模型,可广泛应用于人物动画、场景转换、视频编辑等视频生成场景。
🎉 2025.01.02 发布自研 PP-DocBee 文档理解多模态大模型
* PP-DocBee 是端到端的文档图像理解大模型。在学术界及内部业务场景文档理解评测榜单上,PP-DocBee 均达到同参数量级别模型的 SOTA 水平。
PaddleMIX 是基于飞桨的多模态大模型开发套件,聚合图像、文本、视频等多种模态,覆盖视觉语言预训练、微调、文生图、文生视频、多模态理解等丰富的多模态任务。它提供开箱即用的开发体验,同时支持灵活定制,满足不同需求,助力探索通用人工智能。
| ComfyUI 创作工作流 | R1+MIX 多模态应用 | 多模态文档理解 |
|---|---|---|
| 二次元文生图 | AI 绘画|50+Lora 风格叠加 | 视频编辑 |
其他特色应用示例,请查看 PaddleMIX 精品项目。
PaddleMIX 支持大量最新主流的算法基准以及预训练模型,覆盖图文预训练、文生图、跨模态视觉任务,实现图像编辑、图像描述、数据标注等多样功能。传送门:📱 模型库
PaddleMIX 向开发者提供全流程多模态大模型开发体验,包括数据处理、模型开发、预训练、精调、推理部署。并针对不同任务提供了推荐模型最佳实践。传送门:📱 最佳实践
PaddleMIX 提供高性能分布式训练与推理能力,基于飞桨 4D 混合并行策略、算子融合等优化策略,显著提升多模态大模型训练推理性能。传送门:📱 benchmark
PaddleMIX 发布文档理解模型 PP-DocBee、统一可控视频生成模型 PP-VCtrl、特色数据处理工具箱 DataCopilot,加速多模态大模型产业应用落地。传送门:🏆 特色模型与工具
git clone https://github.com/PaddlePaddle/PaddleMIX
cd PaddleMIX
conda create -n paddlemix python=3.10 -y
conda activate paddlemix
sh build_paddle_env.sh
关于 PaddlePaddle 安装的详细教程请查看 Installation。
运行以下命令来自动安装所有必要的依赖:
sh build_env.sh
# 安装 PaddleMIX
pip install -e .
# 安装 ppdiffusers
cd ppdiffusers
pip install -e .
cd ..
sh check_env.sh
环境和依赖推荐版本:
- paddlepaddle: 3.1.0 或 develop 版本
- paddlenlp: 3.0.0b4
- ppdiffusers: 0.30.0
- huggingface_hub: 0.23.0
多模态大模型入门教程
- 零基础入门深度学习
- 多模态前沿模型入门教程
快速开始
- 图像摘要快速体验
- 图像生成快速体验
- PaddleMIX WebUI 使用
最佳实践
- 热门任务和推荐模型
- 多模态理解
- Qwen2.5-VL 最佳实践
- Qwen2-VL 最佳实践
- Intern-VL2 最佳实践
- LLaVA 最佳实践
- 多模态生成
- Stable Diffusion 3 最佳实践
- Stable Diffusion 最佳实践
- ControlNet 最佳实践
- CogVideoX 最佳实践
Benchmark
- 训练 benchmark
- 推理部署 benchmark
多模态应用案例
- [SDXL 应用