OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

OA0 › 代码 › PaddleMIX — 面向多模态理解与生成的开源工具库

PaddleMIX — 面向多模态理解与生成的开源工具库

cricket · 2026-04-10 11:00:23 · 91 次点击 · 0 条评论

简体中文 | English

💌 目录

💌 目录
📰 新闻
📣 最新进展
🌈 简介
特色应用效果示例如下（点击标题可快速跳转在线体验）：
✨ 主要特性
📱 丰富的多模态模型库
🧩 全流程开发体验
💡 高性能分布式训推能力
🔧 特色模型与工具
🔍 安装
1. 克隆 PaddleMIX 仓库
2. 创建虚拟环境
3. ‼️ 安装 PaddlePaddle
- 方法 1: 一键安装（GPU/CPU推荐）
- 方法 2: 手动安装
4. ‼️ 安装依赖
- 方法 1: 一键安装（推荐）
- 方法 2: 手动安装
5. ‼️ 验证安装
🔥 教程
📱 模型库
🏆 特色模型与工具
💎 PP-DocBee 文档理解特色模型
💎 PP-VCtrl 视频生成控制模型
💎 多模态数据处理工具箱 DataCopilot
🤔 FAQ
❤️ 致谢
📝 许可证书
📌 社区交流
🎯 引用

📰 新闻

🔥 2025.04.21 FLUX 多模态文生图大模型功能抢先体验

🔥🔥 多模态大模型 PaddleMIX 产业实战精品课第五弹：《FLUX 多模态文生图大模型功能抢先体验》。本期课程将带你在 PaddleMIX 框架中快速体验 FLUX 系列模型的多模态文生图能力。深度解析模型实现细节与技术创新，带您实操多模态生成任务处理。4月21日正式开营，名额有限，先到先得：https://www.wjx.top/vm/QTuwoyG.aspx?udsid=997416

📣 最新进展

🔥 2025.07.14 发布 Fast-Diffusers 扩散模型推理加速工具包
* Training-Free：新增 T-gate、PAB、TeaCache、TaylorSeer、BlockDance 等 SOTA Training-Free 算法。发布了自研算法 SortBlock、TeaBlockCache、CG-Taylor 和 FirstBlockTaylor 算法，在保证生成图像质量的同时，实现 2 倍以上的端到端推理加速效果。
* 扩散模型时间步蒸馏：新增 PCM、DMD2 等蒸馏算法，并提供了多种蒸馏 loss 供开发者灵活搭配。同时基于上述蒸馏算法，发布了基于 FLUX-dev 的 4 步蒸馏模型，配合飞桨深度学习编译器，推理时延降低至 1.66 秒。

🔥 2025.05.09 发布 PaddleMIX v3.0-beta
* 多模态理解：新增 Qwen2.5VL 系列、DeepSeek-VL2 等；发布自研 PP-DocBee 文档理解多模态大模型，新增 Qwen2.5VL 高性能推理部署，性能领先 vllm 11.5%。
* 多模态生成：发布 PPDiffusers 0.29.1 版本，发布自研可控视频模型 PP-VCtrl，新增对 SD3 ControlNet 和 SD3.5 的支持。

🎉 2025.01.08 发布自研 PP-VCtrl 视频生成控制模型
* PP-VCtrl 是一个通用的视频生成控制模型，可广泛应用于人物动画、场景转换、视频编辑等视频生成场景。

🎉 2025.01.02 发布自研 PP-DocBee 文档理解多模态大模型
* PP-DocBee 是端到端的文档图像理解大模型。在学术界及内部业务场景文档理解评测榜单上，PP-DocBee 均达到同参数量级别模型的 SOTA 水平。

点击展开更多

**🎉 2024.10.31 喜迎外部开发者的[创作教程页面](paddlemix_applications.md)更新** * 🌟 自 9 月 6 日发起大模型套件精品项目征集活动以来，我们收到了 30 个优质开发者项目，其中 25 个精品项目已通过平台评估并成功加精。 * 🙏 衷心感谢各位开发者基于套件的精彩创作！🚀 诚挚邀请您也来分享您的创意 - 欢迎将教程发布到公开网页或[飞桨 AI Studio](https://aistudio.baidu.com/aistudio/community/multimodal?from=singlemessage) 社区！ **🔥 2024.10.11 发布 PaddleMIX v2.1** * 支持 [PaddleNLP 3.0 beta](https://github.com/PaddlePaddle/PaddleNLP/releases/tag/v3.0.0-beta0) 版本，抢先体验其最新功能。 * 新增 [Qwen2-VL](./paddlemix/examples/qwen2_vl/)、[InternVL2](./paddlemix/examples/internvl2/)、[Stable Diffusion 3 (SD3)](https://github.com/PaddlePaddle/PaddleMIX/blob/develop/ppdiffusers/examples/dreambooth/README_sd3.md) 等前沿模型。 * 发布自研多模数据能力标签模型 [PP-InsCapTagger](./paddlemix/datacopilot/example/pp_inscaptagger/)；可用于数据的分析和过滤，试验案例表明在保持模型效果的条件下可减少 **50%** 的数据量，大幅提高训练效率。 * 多模态大模型 InternVL2、LLaVA、SD3、SDXL 适配昇腾 910B，提供国产计算芯片上的训推能力。 **2024.07.25 发布 PaddleMIX v2.0** * **多模态理解**：新增 LLaVA 系列、Qwen-VL 等；新增 Auto 模块统一 SFT 训练流程；新增 mixtoken 训练策略，SFT 吞吐量提升 **5.6 倍**。 * **多模态生成**：发布 [PPDiffusers 0.24.1](./ppdiffusers/README.md) 版本，支持视频生成能力，文生图模型新增 LCM。新增飞桨版 peft，accelerate 后端。提供基于飞桨开发的 ComfyUI 插件。 * **多模态数据处理工具箱 [DataCopilot](./paddlemix/datacopilot/)**：支持自定义数据结构，数据转换，离线格式检查；支持基本的统计信息，数据可视化功能。 **2023.10.7 发布 PaddleMIX v1.0** * 新增图文预训练模型分布式训练能力，BLIP-2 支持千亿规模训练。 * 新增跨模态应用流水线 [AppFlow](./applications/README.md)，一键支持自动标注、图像编辑、音生图等 11 种跨模态应用。 * [PPDiffusers](./ppdiffusers/README.md) 发布 0.19.3 版本，新增 SDXL 及相关任务。

🌈 简介

PaddleMIX 是基于飞桨的多模态大模型开发套件，聚合图像、文本、视频等多种模态，覆盖视觉语言预训练、微调、文生图、文生视频、多模态理解等丰富的多模态任务。它提供开箱即用的开发体验，同时支持灵活定制，满足不同需求，助力探索通用人工智能。

特色应用效果示例如下（点击标题可快速跳转在线体验）：

ComfyUI 创作工作流	R1+MIX 多模态应用	多模态文档理解

二次元文生图	AI 绘画｜50+Lora 风格叠加	视频编辑

其他特色应用示例，请查看 PaddleMIX 精品项目。

✨ 主要特性

📱 丰富的多模态模型库

PaddleMIX 支持大量最新主流的算法基准以及预训练模型，覆盖图文预训练、文生图、跨模态视觉任务，实现图像编辑、图像描述、数据标注等多样功能。传送门：📱 模型库

🧩 全流程开发体验

PaddleMIX 向开发者提供全流程多模态大模型开发体验，包括数据处理、模型开发、预训练、精调、推理部署。并针对不同任务提供了推荐模型最佳实践。传送门：📱 最佳实践

💡 高性能分布式训推能力

PaddleMIX 提供高性能分布式训练与推理能力，基于飞桨 4D 混合并行策略、算子融合等优化策略，显著提升多模态大模型训练推理性能。传送门：📱 benchmark

🔧 特色模型与工具

PaddleMIX 发布文档理解模型 PP-DocBee、统一可控视频生成模型 PP-VCtrl、特色数据处理工具箱 DataCopilot，加速多模态大模型产业应用落地。传送门：🏆 特色模型与工具

🔍 安装

1. 克隆 PaddleMIX 仓库

git clone https://github.com/PaddlePaddle/PaddleMIX
cd PaddleMIX

2. 创建虚拟环境

conda create -n paddlemix python=3.10 -y
conda activate paddlemix

3. ‼️ 安装 PaddlePaddle

方法 1: 一键安装（GPU/CPU推荐）

CUDA 11.x 或 12.x
PaddlePaddle 3.1.0

sh build_paddle_env.sh

方法 2: 手动安装

关于 PaddlePaddle 安装的详细教程请查看 Installation。

4. ‼️ 安装依赖

方法 1: 一键安装（推荐）

运行以下命令来自动安装所有必要的依赖：

sh build_env.sh

方法 2: 手动安装

# 安装 PaddleMIX
pip install -e .
# 安装 ppdiffusers
cd ppdiffusers
pip install -e .
cd ..

5. ‼️ 验证安装

sh check_env.sh

环境和依赖推荐版本:
- paddlepaddle: 3.1.0 或 develop 版本
- paddlenlp: 3.0.0b4
- ppdiffusers: 0.30.0
- huggingface_hub: 0.23.0

🔥 教程

多模态大模型入门教程
- 零基础入门深度学习
- 多模态前沿模型入门教程

快速开始
- 图像摘要快速体验
- 图像生成快速体验
- PaddleMIX WebUI 使用

Benchmark
- 训练 benchmark
- 推理部署 benchmark

多模态应用案例
- [SDXL 应用

项目地址：https://github.com/PaddlePaddle/PaddleMIX

91 次点击 ∙ 0 人收藏

登录后收藏

0 条回复