OA0
OA0 是一个探索 AI 的社区
现在注册
已注册用户请  登录
OA0  ›  代码  ›  PaddleMIX — 面向多模态理解与生成的开源工具库

PaddleMIX — 面向多模态理解与生成的开源工具库

 
  cricket ·  2026-04-10 11:00:23 · 2 次点击  · 0 条评论  

简体中文 | English

💌 目录

📰 新闻

🔥 2025.04.21 FLUX 多模态文生图大模型功能抢先体验

  • 🔥🔥 多模态大模型 PaddleMIX 产业实战精品课第五弹:《FLUX 多模态文生图大模型功能抢先体验》。本期课程将带你在 PaddleMIX 框架中快速体验 FLUX 系列模型的多模态文生图能力。深度解析模型实现细节与技术创新,带您实操多模态生成任务处理。4月21日正式开营,名额有限,先到先得:https://www.wjx.top/vm/QTuwoyG.aspx?udsid=997416

📣 最新进展

🔥 2025.07.14 发布 Fast-Diffusers 扩散模型推理加速工具包
* Training-Free:新增 T-gatePABTeaCacheTaylorSeerBlockDance 等 SOTA Training-Free 算法。发布了自研算法 SortBlockTeaBlockCacheCG-TaylorFirstBlockTaylor 算法,在保证生成图像质量的同时,实现 2 倍以上的端到端推理加速效果。
* 扩散模型时间步蒸馏:新增 PCMDMD2 等蒸馏算法,并提供了多种蒸馏 loss 供开发者灵活搭配。同时基于上述蒸馏算法,发布了基于 FLUX-dev 的 4 步蒸馏模型,配合飞桨深度学习编译器,推理时延降低至 1.66 秒

🔥 2025.05.09 发布 PaddleMIX v3.0-beta
* 多模态理解:新增 Qwen2.5VL 系列、DeepSeek-VL2 等;发布自研 PP-DocBee 文档理解多模态大模型,新增 Qwen2.5VL 高性能推理部署,性能领先 vllm 11.5%。
* 多模态生成:发布 PPDiffusers 0.29.1 版本,发布自研可控视频模型 PP-VCtrl,新增对 SD3 ControlNet 和 SD3.5 的支持。

🎉 2025.01.08 发布自研 PP-VCtrl 视频生成控制模型
* PP-VCtrl 是一个通用的视频生成控制模型,可广泛应用于人物动画、场景转换、视频编辑等视频生成场景。

🎉 2025.01.02 发布自研 PP-DocBee 文档理解多模态大模型
* PP-DocBee 是端到端的文档图像理解大模型。在学术界及内部业务场景文档理解评测榜单上,PP-DocBee 均达到同参数量级别模型的 SOTA 水平。

点击展开更多 **🎉 2024.10.31 喜迎外部开发者的[创作教程页面](paddlemix_applications.md)更新** * 🌟 自 9 月 6 日发起大模型套件精品项目征集活动以来,我们收到了 30 个优质开发者项目,其中 25 个精品项目已通过平台评估并成功加精。 * 🙏 衷心感谢各位开发者基于套件的精彩创作!🚀 诚挚邀请您也来分享您的创意 - 欢迎将教程发布到公开网页或[飞桨 AI Studio](https://aistudio.baidu.com/aistudio/community/multimodal?from=singlemessage) 社区! **🔥 2024.10.11 发布 PaddleMIX v2.1** * 支持 [PaddleNLP 3.0 beta](https://github.com/PaddlePaddle/PaddleNLP/releases/tag/v3.0.0-beta0) 版本,抢先体验其最新功能。 * 新增 [Qwen2-VL](./paddlemix/examples/qwen2_vl/)、[InternVL2](./paddlemix/examples/internvl2/)、[Stable Diffusion 3 (SD3)](https://github.com/PaddlePaddle/PaddleMIX/blob/develop/ppdiffusers/examples/dreambooth/README_sd3.md) 等前沿模型。 * 发布自研多模数据能力标签模型 [PP-InsCapTagger](./paddlemix/datacopilot/example/pp_inscaptagger/);可用于数据的分析和过滤,试验案例表明在保持模型效果的条件下可减少 **50%** 的数据量,大幅提高训练效率。 * 多模态大模型 InternVL2、LLaVA、SD3、SDXL 适配昇腾 910B,提供国产计算芯片上的训推能力。 **2024.07.25 发布 PaddleMIX v2.0** * **多模态理解**:新增 LLaVA 系列、Qwen-VL 等;新增 Auto 模块统一 SFT 训练流程;新增 mixtoken 训练策略,SFT 吞吐量提升 **5.6 倍**。 * **多模态生成**:发布 [PPDiffusers 0.24.1](./ppdiffusers/README.md) 版本,支持视频生成能力,文生图模型新增 LCM。新增飞桨版 peft,accelerate 后端。提供基于飞桨开发的 ComfyUI 插件。 * **多模态数据处理工具箱 [DataCopilot](./paddlemix/datacopilot/)**:支持自定义数据结构,数据转换,离线格式检查;支持基本的统计信息,数据可视化功能。 **2023.10.7 发布 PaddleMIX v1.0** * 新增图文预训练模型分布式训练能力,BLIP-2 支持千亿规模训练。 * 新增跨模态应用流水线 [AppFlow](./applications/README.md),一键支持自动标注、图像编辑、音生图等 11 种跨模态应用。 * [PPDiffusers](./ppdiffusers/README.md) 发布 0.19.3 版本,新增 SDXL 及相关任务。

🌈 简介

PaddleMIX 是基于飞桨的多模态大模型开发套件,聚合图像、文本、视频等多种模态,覆盖视觉语言预训练、微调、文生图、文生视频、多模态理解等丰富的多模态任务。它提供开箱即用的开发体验,同时支持灵活定制,满足不同需求,助力探索通用人工智能。

特色应用效果示例如下(点击标题可快速跳转在线体验):

ComfyUI 创作工作流 R1+MIX 多模态应用 多模态文档理解
二次元文生图 AI 绘画|50+Lora 风格叠加 视频编辑

其他特色应用示例,请查看 PaddleMIX 精品项目


✨ 主要特性

📱 丰富的多模态模型库

PaddleMIX 支持大量最新主流的算法基准以及预训练模型,覆盖图文预训练、文生图、跨模态视觉任务,实现图像编辑、图像描述、数据标注等多样功能。传送门📱 模型库

🧩 全流程开发体验

PaddleMIX 向开发者提供全流程多模态大模型开发体验,包括数据处理、模型开发、预训练、精调、推理部署。并针对不同任务提供了推荐模型最佳实践。传送门📱 最佳实践

💡 高性能分布式训推能力

PaddleMIX 提供高性能分布式训练与推理能力,基于飞桨 4D 混合并行策略、算子融合等优化策略,显著提升多模态大模型训练推理性能。传送门📱 benchmark

🔧 特色模型与工具

PaddleMIX 发布文档理解模型 PP-DocBee、统一可控视频生成模型 PP-VCtrl、特色数据处理工具箱 DataCopilot,加速多模态大模型产业应用落地。传送门🏆 特色模型与工具

🔍 安装

1. 克隆 PaddleMIX 仓库

git clone https://github.com/PaddlePaddle/PaddleMIX
cd PaddleMIX

2. 创建虚拟环境

conda create -n paddlemix python=3.10 -y
conda activate paddlemix

3. ‼️ 安装 PaddlePaddle

方法 1: 一键安装(GPU/CPU推荐)

  • CUDA 11.x 或 12.x
  • PaddlePaddle 3.1.0
sh build_paddle_env.sh

方法 2: 手动安装

关于 PaddlePaddle 安装的详细教程请查看 Installation

4. ‼️ 安装依赖

方法 1: 一键安装(推荐)

运行以下命令来自动安装所有必要的依赖:

sh build_env.sh

方法 2: 手动安装

# 安装 PaddleMIX
pip install -e .
# 安装 ppdiffusers
cd ppdiffusers
pip install -e .
cd ..

5. ‼️ 验证安装

sh check_env.sh

环境和依赖推荐版本:
- paddlepaddle: 3.1.0 或 develop 版本
- paddlenlp: 3.0.0b4
- ppdiffusers: 0.30.0
- huggingface_hub: 0.23.0

🔥 教程

多模态大模型入门教程
- 零基础入门深度学习
- 多模态前沿模型入门教程

快速开始
- 图像摘要快速体验
- 图像生成快速体验
- PaddleMIX WebUI 使用

最佳实践
- 热门任务和推荐模型
- 多模态理解
- Qwen2.5-VL 最佳实践
- Qwen2-VL 最佳实践
- Intern-VL2 最佳实践
- LLaVA 最佳实践
- 多模态生成
- Stable Diffusion 3 最佳实践
- Stable Diffusion 最佳实践
- ControlNet 最佳实践
- CogVideoX 最佳实践

Benchmark
- 训练 benchmark
- 推理部署 benchmark

多模态应用案例
- [SDXL 应用

2 次点击  ∙  0 人收藏  
登录后收藏  
0 条回复
关于 ·  帮助 ·  PING ·  隐私 ·  条款   
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
耗时 30 ms
Developed with Cursor