在人工智能领域,追求“前沿(Frontier)”性能与开放生态的平衡一直是行业焦点。月之暗面最新发布的 Kimi k2.5 标志着一个里程碑式的跃迁。作为目前全球顶尖的权重开放模型之一,Kimi k2.5 不仅在逻辑推理上保持了传统优势,更在智能体协作、多模态融合及工程效率上展现了极强的竞争力。
在针对现实世界知识工作(如分析报告撰写、演示文稿准备等)的 GDPval-AA 评测中,Kimi k2.5 的 Elo 等级分达到了 1309。这一成绩使其仅次于 OpenAI 和 Anthropic 的旗舰模型,并显著领先于 GLM-4.7、DeepSeek V3.2 以及 Gemini 3 Pro。
Kimi k2.5 的优势在于其“行动力”:在模拟的智能体循环中,它能够熟练调用 Shell 权限和网页浏览功能,展现出极高的任务达成率和复杂的逻辑规划能力。
Kimi k2.5 是月之暗面首个支持图像和视频输入的旗舰模型。这打破了此前顶级开放权重模型在多模态领域长期弱于闭源模型的僵局。
Kimi k2.5 延续了混合专家(MoE)架构,拥有 1万亿(1T) 总参数量,其中活跃参数量为 320亿(32B)。为了优化部署成本和效率,月之暗面采取了独特的发布策略:
从运行成本来看,Kimi k2.5 在性能与价格之间找到了一个平衡点。虽然其运行成本高于 DeepSeek V3.2,但仅为 Claude Opus 4.5 或 GPT-5.2 的四分之一左右。对于追求极致性能又希望保持成本可控的企业级应用而言,Kimi k2.5 提供了极具吸引力的性价比。
在 AA-Omniscience 指标(衡量准确性与幻觉率)中,Kimi k2.5 展现了比前代更严谨的作答风格。其幻觉率从 K2 Thinking 的 74% 降至 64%。这意味着在面对不确定的知识领域时,模型更倾向于“保持沉默”或引导用户,而非凭空捏造,这对于金融、医疗等严肃领域的应用至关重要。
Kimi k2.5 的发布,意味着月之暗面成功将中国自主研发的开放权重模型推向了全球排名的前列。通过强化智能体能力和补全多模态能力,Kimi k2.5 不仅为开发者提供了更强大的工具,也为大模型在复杂商业场景的落地提供了新的可能性。