CursorBench：为 AI 编程智能体设计的新一代评测体系

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

https://cursor.com/cn/blog/cursorbench#cursorbench

核心总结

Cursor 团队认为，随着 AI 编程智能体开始处理 跨文件、多工具、长步骤的复杂任务，传统的 AI Benchmark 已经无法准确评估模型能力。

公开基准主要存在三个问题：

任务不匹配：很多基准只测试简单 bug 修复或谜题式任务，与真实开发工作差距较大。
评分不合理：真实开发任务往往存在多种可行解，但很多 Benchmark 只认可固定答案。
数据污染：很多任务来自公开代码仓库，可能已经进入模型训练数据，导致分数失真。

为了解决这些问题，Cursor 构建了自己的评测系统 CursorBench。
它基于真实开发者在 Cursor 中的实际请求，评估模型在 正确性、代码质量、效率和交互体验 等多个维度的表现。

CursorBench 的结果再结合 真实用户流量中的在线评估，形成一个线上—线下的评测闭环。这样可以确保模型评分不仅在测试中表现良好，也真正提升开发者体验。

未来，随着 AI Agent 开始执行 更长时间运行的任务，Cursor 也计划继续升级评测体系，以适应新的开发模式。

原文主旨

随着 AI 编程工具的发展，开发者正在把越来越复杂的任务交给智能体完成。这些任务往往涉及多个文件、多个工具以及多步操作。

然而，传统的 AI Benchmark 主要围绕简单问题设计，例如修复单个 bug 或解决特定编程题目。这类测试越来越难反映真实开发场景中的模型能力。

Cursor 团队认为，公开基准主要存在三个问题。
首先，很多基准任务与实际开发工作并不匹配。例如，一些测试仍然只关注简单 bug 修复，而真实项目往往涉及跨模块修改、日志排查或复杂环境配置。
其次，评分方式往往假设只有唯一正确答案，但在真实开发中，一个问题通常可以有多种合理的实现方式。
最后，很多基准任务来自公开代码仓库，这些数据可能已经被模型学习过，从而导致测试结果被高估。

为了解决这些问题，Cursor 构建了一个内部评测系统 CursorBench。
它的任务来源于真实开发者在 Cursor 中的使用记录，通过工具将代码修改与最初的用户请求进行对应，从而形成真实问题与标准解决方案的配对。

CursorBench 的任务规模也明显大于传统 Benchmark，往往涉及更多代码行数和更多文件。例如，一些任务需要处理大型代码库、排查生产日志，甚至运行复杂实验。这样的设计更接近真实开发环境。

在评估模型时，Cursor 不仅关注任务是否完成，还会综合考虑代码质量、执行效率以及与用户的交互体验。同时，他们还会观察模型完成任务所消耗的 token 数量，从而评估性能与成本之间的平衡。

除了离线测试，Cursor 还会在真实用户流量中进行在线评估，通过 A/B 实验观察模型更新是否真的提升了开发效率。有时某个模型在离线评分中表现很好，但在真实使用中却可能降低用户体验，这些问题只能通过线上测试发现。

通过这种 线上与线下结合的评测方式，Cursor 能够更准确地判断模型质量，并持续优化 AI 编程体验。

随着 AI Agent 开始执行更长时间运行的任务，例如自动调试系统或运行实验，Cursor 也在规划下一代评测体系，以适应未来的软件开发模式。

41 次点击 ∙ 0 人收藏

登录后收藏

0 条回复