在 2026 年的 AI 开发者生态中,OpenClaw 已成为构建智能体(Agent)的主流框架。然而,面对琳琅满目的模型选择,开发者往往陷入“参数迷信”。近日,由 Kilo AI 团队推出的开源评测工具 PinchBench https://pinchbench.com/ 发布了最新一期的“成功率排行榜(Success Rate Leaderboard)”,为全球开发者揭示了谁才是最适合 Agent 任务的底层模型。
不同于传统的文本生成评测,PinchBench 专注于 Agent 基础设施能力。其评测机制包含 23 个真实场景下的复杂任务,采用自动化检查(Auto-check)与 LLM 评审相结合的评分机制,从成功率、速度、价格三个维度进行实时动态评估。
根据最新的 PinchBench 数据,Google 的 Gemini 系列与国产模型代表 MiniMax、DeepSeek 展开了激烈角逐。以下是当前成功率排名前八的模型:
| 排名 | 模型名称 | 厂商 | 成功率 (Success Rate) |
|---|---|---|---|
| 1 | google/gemini-3-flash-preview |
95.4% | |
| 2 | minimax/minimax-m2.1 |
MiniMax | 95.4% |
| 3 | deepseek/deepseek-v3.2 |
DeepSeek | 95.2% |
| 4 | moonshotai/kimi-k2.5 |
Moonshot AI | 95.2% |
| 5 | google/gemini-3-pro-preview |
95.1% | |
| 6 | anthropic/claude-sonnet-4.5 |
Anthropic | 95.1% |
| 7 | anthropic/claude-opus-4.6 |
Anthropic | 94.7% |
| 8 | anthropic/claude-sonnet-4 |
Anthropic | 94.7% |
榜单显示,国产模型在适配 OpenClaw 时表现出了极强的韧性。其中 MiniMax M2.1 以 95.4% 的成功率与 Google 顶级模型并列第一。而在响应速度上,MiniMax M2.5 表现尤为出色,这表明在追求高频交互、低延迟的 Agent 场景下,国产模型已经具备了极佳的实战价值。
虽然性能夺冠,但在价格维度上,国产模型仍面临国际巨头的压制。
* 国际标杆:GPT-5-nano 的输入价格已压低至 0.05 美元 / 百万 tokens。
* 国产现状:MiniMax M2.1 的价格约为 2.1 元 / 百万 tokens(约折合 0.3 美元)。
在百万级调用量的 Agent 任务中,这 6 倍 的价格差距是开发者在选择模型时必须权衡的因素。
一个有趣的发现是,Gemini-3-flash-preview 的排名甚至略高于其 Pro 版本。这再次印证了 PinchBench 的核心观点:更大的模型并非总是最优选择。对于 Agent 而言,指令遵循能力、工具调用(Tool Calling)准确度以及推理效率的优化,比单纯的参数规模更为重要。
PinchBench 的意义在于它打破了“跑分即能力”的幻象。对于 OpenClaw 用户而言:
* 追求极致体验:MiniMax M2.5/M2.1 或 Kimi K2.5 是目前的顶级选择。
* 在意大规模部署成本:Gemini-3-flash 或 GPT-5-nano 更具吸引力。
该评测工具目前已完全开源,旨在帮助开发者更科学地构建 Agent。随着模型能力的持续迭代,我们期待看到国产模型在保持性能领先的同时,能进一步优化价格竞争力。
数据来源:PinchBench.com (Kilo AI 团队出品)