[2026-01-20] 🚀🚀🚀 我们开源了 AgentCPM-Report,它基于 MiniCPM4.1-8B,在报告生成任务上可与 Gemini-2.5-pro-DeepResearch 等顶级闭源商业系统相媲美。
[2026-01-12] 🚀🚀🚀 我们开源了 AgentCPM-Explore——一个只有 4B 参数 的智能体大模型,并提供了训练、推理和工具沙箱环境的完整代码。它成功登顶了包括 GAIA、HLE 和 BrowseComp 在内的八个经典长周期、高难度智能体排行榜。在该尺寸下,其 SOTA 性能实现了更长的行动链和更精准的深度研究,打破了端侧智能体的性能瓶颈。
AgentCPM 是由 THUNLP(清华大学自然语言处理实验室)、中国人民大学、面壁智能 (ModelBest) 和 OpenBMB 社区 联合开发的一系列开源大模型智能体。为了解决智能体在现实应用中面临的长周期能力、自主性和泛化性有限等挑战,我们提出了一系列模型构建方法。近期,团队专注于全面构建智能体的深度研究能力,发布了深度搜索智能体 AgentCPM-Explore 和深度报告智能体 AgentCPM-Report。
| 模型 | 下载链接 | 开源内容 | 技术报告 | 使用方法 |
|---|---|---|---|---|
| AgentCPM-Explore | 🤗 Hugging Face 🤖 ModelScope |
AgentDock: 统一的工具沙箱管理与调度平台 AgentRL: 全异步智能体强化学习框架 AgentToLeaP: 一键式智能体工具学习能力评估框架 |
AgentCPM-Explore: 为边缘端智能体实现长周期深度探索 | README.md |
| AgentCPM-Report | 🤗 Hugging Face 🤖 ModelScope |
UltraRAG: 低代码 RAG 框架 | AgentCPM-Report: 交错起草与深化实现开放式深度研究 | README.md |
AgentCPM 团队专注于系统性地构建智能体的深度研究能力,并发布了深度搜索智能体 AgentCPM-Explore。AgentCPM-Explore 是首个在 GAIA、XBench 等八个广泛使用的长周期智能体基准测试中亮相的开源 4B 参数级智能体模型。
主要亮点:
演示示例 (加速播放):
https://github.com/user-attachments/assets/f2b3bb20-ccd5-4b61-8022-9f6e90992baa
config.toml 文件中配置模型的 BASE_URL 和 API_KEY。如果使用本地部署的模型,需确保模型服务可访问。配置所需工具参数于 config.toml 文件。docker compose up -d 命令启动所有服务,包括管理面板、数据库和工具节点。```bash
# 1. 进入项目文件夹
cd AgentCPM-Explore
# 2. 拉取镜像 (支持 amd64/arm64 架构)
docker pull yuyangfu/agenttoleap-eval:v2.0
# 3. 启动容器 (根据需要调整 -v 的挂载路径)
docker run -dit --name agenttoleap --gpus all --network host -v $(pwd):/workspace yuyangfu/agenttoleap-eval:v2.0
# 4. 进入容器
docker exec -it agenttoleap /bin/bash
cd /workspace
```
quickstart.py,在 [USER CONFIGURATION] 部分进行简单配置:QUERY 变量为你想要测试的指令(例如,“查询昨晚欧冠比赛结果”)。API_KEY、MODEL_NAME 和 BASE_URL。MANAGER_URL 设置为你的 MCP 工具服务器地址(例如 http://localhost:8000;确保服务已在运行)。bash
python quickstart.py
脚本会自动创建一个演示任务(默认查询今日 arXiv 的计算机科学论文),生成执行工作流并启动评估过程。
outputs/quickstart_results/ 目录下。你可以在其中查看 dialog.json 来获取完整的交互轨迹,包括工具调用和推理链条。注意:QuickStart 模式默认跳过自动评分,仅用于演示 Agent 的执行能力。
AgentCPM-Report 基于 8B 参数的基座模型 MiniCPM4.1 构建。它接受用户指令作为输入,自主生成长篇报告。亮点包括:
我们提供了一个集成在 UltraRAG 中的最简一键 docker-compose 部署方案,其中包含了 RAG 框架 UltraRAG2.0、模型推理框架 vllm 和 Milvus 向量数据库。如果你需要 CPU 推理,我们还提供了基于 llama.cpp 的版本,适用于 GGUF 格式的模型——只需将 docker-compose.yml 替换为 docker-compose.cpu.yml 即可。
git clone git@github.com:OpenBMB/UltraRAG.git
cd UltraRAG
git checkout agentcpm-report-demo
cd agentcpm-report-demo
cp env.example .env
docker-compose -f docker-compose.yml up -d --build
docker-compose -f docker-compose.yml logs -f ultrarag-ui
首次启动需要拉取镜像、下载模型和设置环境,可能需要大约 30 分钟。
然后打开 http://localhost:5050。如果能看到图形界面,则部署成功。
按照界面提示上传本地文件、进行分块并构建索引。然后,在聊天面板中,在 pipeline 里选择 AgentCPM-Report,即可开始你的工作流!
(可选)你可以从 Wiki2024 导入 Wiki2024 作为写作数据库。
你可以从 教程页面 阅读更多关于 AgentCPM-Report 的教程。
如果 AgentCPM-Explore 对你的研究有帮助,请引用该代码库:
@misc{chen2026agentcpmexplore,
title = {{{AgentCPM-Explore}}: {{Realizing Long-Horizon Deep Exploration}} for {{Edge-Scale Agents}}},
author = {Chen, Haotian and Cong, Xin and Fan, Shengda and Fu, Yuyang and Gong, Ziqin and Lu, Yaxi and Li, Yishan and Niu, Boye and Pan, Chengjun and Song, Zijun and Wang, Huadong and Wu, Yesai and Wu, Yueying and Xie, Zihao and Yan, Yukun and Zhang, Zhong and Lin, Yankai and Liu, Zhiyuan and Sun, Maosong},
year = 2026,
month = feb,
number = {arXiv:2602.06485},
eprint = {2602.06485},
publisher = {arXiv},
doi = {10.48550/arXiv.2602.06485},
archiveprefix = {arXiv},
langid = {english}
}
如果 AgentCPM-Report 对你的研究有帮助,你可以按如下方式引用:
@misc{li2026agentcpmreport,
title={AgentCPM-Report: Interleaving Drafting and Deepening for Open-Ended Deep Research},
author={Yishan Li and Wentong Chen and Yukun Yan and Mingwei Li and Sen Mei and Xiaorong Wang and Kunpeng Liu and Xin Cong and Shuo Wang and Zhong Zhang and Yaxi Lu and Zhenghao Liu and Yankai Lin and Zhiyuan Liu and Maosong Sun},
year={2026},
eprint={2602.06540},
archivePrefix={arXiv},
primaryClass={cs.AI},
url={https://arxiv.org/abs/2602.06540},
}