MiniCPM-V — 轻量但强大的端侧多模态模型方案

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

**一款可在手机上运行的、达到 Gemini 2.5 Flash 水平的、支持视觉、语音和全双工多模态直播的 MLLM** [中文](./README_zh.md) | English WeChat

微信 |

Discord

MiniCPM-o 4.5 🤗 📞 🤖 | MiniCPM-V 4.0 🤗 | 🍳 使用手册 | 音频案例集 | 全双工全能案例集

MiniCPM-o 是 MiniCPM-V 系列升级而来的最新端侧多模态大语言模型（MLLM）系列。该系列模型现能以端到端方式接收图像、视频、文本和音频输入，并生成高质量的文本和语音输出。该系列模型旨在实现强大性能与高效部署。目前该系列中最引人注目的模型包括：

MiniCPM-o 4.5: 🔥🔥🔥 该系列最新且能力最强的模型。这个端到端模型总参数量为 9B，在视觉、语音和全双工多模态直播方面接近 Gemini 2.5 Flash，使其成为开源社区中最通用和性能最强的模型之一。新的全双工多模态直播能力意味着输出流（语音和文本）与实时输入流（视频和音频）互不阻塞。这使得 MiniCPM-o 4.5 能够在实时全能对话中同时看、听和说，并执行主动交互，例如主动提醒。改进的语音模式以更自然、更具表现力和更稳定的方式支持双语实时语音对话，并支持语音克隆。它还提升了 MiniCPM-V 的视觉能力，如强大的 OCR 能力、可信赖的行为和多语言支持等。我们还推出了高性能的 llama.cpp-omni 推理框架以及 WebRTC 演示，将这种全双工多模态直播体验带到 Mac 等本地设备上。
MiniCPM-V 4.0: ⭐️⭐️⭐️ MiniCPM-V 系列中的高效模型。总参数量为 4B，该模型在 OpenCompass 评估的图像理解能力上超越了 GPT-4.1-mini-20250414。凭借其小参数量和高效架构，MiniCPM-V 4.0 是手机上端侧部署的理想选择。

最新动态

📌 置顶

[!NOTE]
[2026.02.06] 🥳 🥳 🥳 我们开源了一个可在 Mac 或 GPU 等自有设备上部署的实时 Web 演示。立即尝试！

[2026.02.05] 📢📢📢 我们注意到由于网络条件，Web 演示可能存在延迟问题。我们正在积极努力，尽快提供用于本地部署实时交互演示的 Docker 镜像。敬请期待！
[2026.02.03] 🔥🔥🔥 我们开源 MiniCPM-o 4.5，其在视觉和语音方面与 Gemini 2.5 Flash 相当，并支持全双工多模态直播。立即尝试！
[2025.09.18] 📢📢📢 MiniCPM-V 4.5 技术报告现已发布！参见此处。
[2025.08.26] 🔥🔥🔥 我们开源 MiniCPM-V 4.5，其性能超越 GPT-4o-latest、Gemini-2.0 Pro 和 Qwen2.5-VL 72B。它提升了 MiniCPM-V 的流行能力，并带来了有用的新功能。立即尝试！
[2025.08.01] ⭐️⭐️⭐️ 我们开源了 MiniCPM-V & o 使用手册！它提供了针对多样化用户场景的全面指南，并搭配我们新的文档网站以便更顺畅地上手。
[2025.03.01] 🚀🚀🚀 MiniCPM-o 的对齐技术 RLAIF-V 被 CVPR 2025 Highlights 接收！代码、数据集、论文均已开源！
[2025.01.24] 📢📢📢 MiniCPM-o 2.6 技术报告发布！参见此处。
[2025.01.19] ⭐️⭐️⭐️ MiniCPM-o 登上 GitHub Trending 榜首，并在 Hugging Face Trending 上达到第二名！
[2024.05.23] 🔥🔥🔥 MiniCPM-V 登上 GitHub Trending 和 Hugging Face Trending 榜首！我们的演示由 Hugging Face Gradio 官方账号推荐，可在此处体验。快来试试吧！

点击查看更多动态。

* [2025.09.01] ⭐️⭐️⭐️ MiniCPM-V 4.5 已获得 [llama.cpp](https://github.com/ggml-org/llama.cpp/pull/15575)、[vLLM](https://github.com/vllm-project/vllm/pull/23586) 和 [LLaMA-Factory](https://github.com/hiyouga/LLaMA-Factory/pull/9022) 的官方支持。欢迎通过这些官方渠道直接使用！对 [Ollama](https://github.com/ollama/ollama/pull/12078) 和 [SGLang](https://github.com/sgl-project/sglang/pull/9610) 等额外框架的支持正在积极进行中。 * [2025.08.02] 🚀🚀🚀 我们开源 MiniCPM-V 4.0，其在图像理解上超越 GPT-4.1-mini-20250414。它提升了 MiniCPM-V 2.6 的流行功能，并大幅提高了效率。我们还开源了可在 iPhone 和 iPad 上运行的 iOS App。立即尝试！ * [2025.06.20] ⭐️⭐️⭐️ 我们的官方 [Ollama 仓库](https://ollama.com/openbmb) 发布。 [一键](https://ollama.com/openbmb/minicpm-o2.6) 试用我们的最新模型！ * [2025.01.23] 💡💡💡 MiniCPM-o 2.6 现已获得 PKU-Alignment 团队的 [Align-Anything](https://github.com/PKU-Alignment/align-anything) 框架支持，该框架用于将任意模态大模型与人类意图对齐。它支持视觉和音频的 DPO 和 SFT 微调。立即尝试！ * [2025.01.19] 📢 **注意！** 我们目前正在将 MiniCPM-o 2.6 合并到 llama.cpp、Ollama 和 vllm 的官方仓库中。在合并完成之前，请使用我们的本地分支：[llama.cpp](https://github.com/OpenBMB/llama.cpp/blob/minicpm-omni/examples/llava/README-minicpmo2.6.md)、[Ollama](https://github.com/OpenBMB/ollama/blob/minicpm-v2.6/examples/minicpm-v2.6/README.md) 和 [vllm](https://github.com/OpenBMB/MiniCPM-o?tab=readme-ov-file#efficient-inference-with-llamacpp-ollama-vllm)。**在合并前使用官方仓库可能导致意外问题**。 * [2025.01.17] 我们更新了 MiniCPM-o 2.6 int4 量化版本的使用方法，并解决了模型初始化错误。点击[此处](https://huggingface.co/openbmb/MiniCPM-o-2_6-int4)立即尝试！ * [2025.01.13] 🔥🔥🔥 我们开源 MiniCPM-o 2.6，其在视觉、语音和多模态直播方面与 GPT-4o-202405 相当。它提升了 MiniCPM-V 2.6 的流行能力，并支持各种有趣的新功能。立即尝试！ * [2024.08.15] 我们现在也支持多图像 SFT。更多详情请参阅[文档](https://github.com/OpenBMB/MiniCPM-V/tree/main/finetune)。 * [2024.08.14] MiniCPM-V 2.6 现在也支持使用 SWIFT 框架进行[微调](https://github.com/modelscope/ms-swift/issues/1613)！ * [2024.08.17] 🚀🚀🚀 MiniCPM-V 2.6 现已获得[官方](https://github.com/ggerganov/llama.cpp) llama.cpp 的完全支持！各种尺寸的 GGUF 模型可在[此处](https://huggingface.co/openbmb/MiniCPM-V-2_6-gguf)获取。 * [2024.08.10] 🚀🚀🚀 MiniCPM-Llama3-V 2.5 现已获得[官方](https://github.com/ggerganov/llama.cpp) llama.cpp 的完全支持！各种尺寸的 GGUF 模型可在[此处](https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5-gguf)获取。 * [2024.08.06] 🔥🔥🔥 我们开源 MiniCPM-V 2.6，其在单图像、多图像和视频理解方面超越 GPT-4V。它提升了 MiniCPM-Llama3-V 2.5 的流行功能，并可在 iPad 上支持实时视频理解。立即尝试！ * [2024.08.03] MiniCPM-Llama3-V 2.5 技术报告发布！参见[此处](https://arxiv.org/abs/2408.01800)。 * [2024.07.19] MiniCPM-Llama3-V 2.5 现已支持 vLLM！参见[此处](#inference-with-vllm)。 * [2024.06.03] 现在，您可以通过将模型层分布在多个 GPU 上，在多个低显存 GPU（12 GB 或 16 GB）上运行 MiniCPM-Llama3-V 2.5。更多详情请查看此[链接](https://github.com/OpenBMB/MiniCPM-V/blob/main/docs/inference_on_multiple_gpus.md)。 * [2024.05.28] 🚀🚀🚀 MiniCPM-Llama3-V 2.5 现已完全支持其在 llama.cpp 和 Ollama 中的功能！请拉取**我们提供的分支**的最新代码（[llama.cpp](https://github.com/OpenBMB/llama.cpp/blob/minicpm-v2.5/examples/minicpmv/README.md)、[Ollama](https://github.com/OpenBMB/ollama/tree/minicpm-v2.5/examples/minicpm-v2.5)）。各种尺寸的 GGUF 模型可在[此处](https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5-gguf/tree/main)获取。MiniCPM-Llama3-V 2.5 系列**尚未获得官方仓库支持**，我们正在努力合并 PR。敬请期待！ * [2024.05.28] 💫 我们现在支持使用仅 2 个 V100 GPU 对 MiniCPM-Llama3-V 2.5 进行 LoRA 微调！查看更多统计信息[此处](https://github.com/OpenBMB/MiniCPM-V/tree/main/finetune#model-fine-tuning-memory-usage-statistics)。 * [2024.05.25] MiniCPM-Llama3-V 2.5 现在支持流式输出和自定义系统提示。在此[尝试](https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5#usage)！ * [2024.05.24] 我们发布了 MiniCPM-Llama3-V 2.5 的 [gguf](https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5-gguf) 版本，支持 [llama.cpp](#inference-with-llamacpp) 推理，并在手机上提供 6~8 token/s 的流畅解码速度。立即尝试！ * [2024.05.23] 🔍 我们发布了 Phi-3-vision-128k-instruct 和 MiniCPM-Llama3-V 2.5 之间的全面对比，包括基准评估、多语言能力和推理效率 🌟📊🌍🚀。点击[此处](./docs/compare_with_phi-3_vision.md)查看更多详情。 * [2024.05.20] 我们开源 MiniCPM-Llama3-V 2.5，它改进了 OCR 能力并支持 30 多种语言，是首个达到 GPT-4V 级别性能的端侧 MLLM！我们提供[高效推理](#deployment-on-mobile-phone)和[简单微调](./finetune/readme.md)。立即尝试！ * [2024.04.23] MiniCPM-V-2.0 现已支持 vLLM！点击[此处](#inference-with-vllm)查看更多详情。 * [2024.04.18] 我们在 HuggingFace Space 上创建了 MiniCPM-V 2.0 的演示，位于[此处](https://huggingface.co/spaces/openbmb/MiniCPM-V-2)！ * [2024.04.17] MiniCPM-V-2.0 现在支持部署 [WebUI 演示](#webui-demo)！ * [2024.04.15] MiniCPM-V-2.0 现在也支持使用 SWIFT 框架进行[微调](https://github.com/modelscope/swift/blob/main/docs/source/Multi-Modal/minicpm-v-2最佳实践.md)！ * [2024.04.12] 我们开源 MiniCPM-V 2.0，其在理解场景文本方面与 Gemini Pro 性能相当，并在涵盖 11 个流行基准的全面评估 OpenCompass 上超越了强大的 Qwen-VL-Chat 9.6B 和 Yi-VL 34B。点击此处查看 MiniCPM-V 2.0 技术博客。 * [2024.03.14] MiniCPM-V 现在支持使用 SWIFT 框架进行[微调](https://github.com/modelscope/swift/blob/main/docs/source/Multi-Modal/minicpm-v最佳实践.md)。感谢 [Jintao](https://github.com/Jintao-Huang) 的贡献！ * [2024.03.01] MiniCPM-V 现在可以在 Mac 上部署！ * [2024.02.01] 我们开源 MiniCPM-V 和 OmniLMM-12B，分别支持高效的端侧部署和强大的多模态能力。

MiniCPM-V — 轻量但强大的端侧多模态模型方案

最新动态

📌 置顶

目录