https://cursor.com/cn/blog/cursorbench#cursorbench
Cursor 团队认为,随着 AI 编程智能体开始处理 跨文件、多工具、长步骤的复杂任务,传统的 AI Benchmark 已经无法准确评估模型能力。
公开基准主要存在三个问题:
为了解决这些问题,Cursor 构建了自己的评测系统 CursorBench。
它基于真实开发者在 Cursor 中的实际请求,评估模型在 正确性、代码质量、效率和交互体验 等多个维度的表现。
CursorBench 的结果再结合 真实用户流量中的在线评估,形成一个线上—线下的评测闭环。这样可以确保模型评分不仅在测试中表现良好,也真正提升开发者体验。
未来,随着 AI Agent 开始执行 更长时间运行的任务,Cursor 也计划继续升级评测体系,以适应新的开发模式。
随着 AI 编程工具的发展,开发者正在把越来越复杂的任务交给智能体完成。这些任务往往涉及多个文件、多个工具以及多步操作。
然而,传统的 AI Benchmark 主要围绕简单问题设计,例如修复单个 bug 或解决特定编程题目。这类测试越来越难反映真实开发场景中的模型能力。
Cursor 团队认为,公开基准主要存在三个问题。
首先,很多基准任务与实际开发工作并不匹配。例如,一些测试仍然只关注简单 bug 修复,而真实项目往往涉及跨模块修改、日志排查或复杂环境配置。
其次,评分方式往往假设只有唯一正确答案,但在真实开发中,一个问题通常可以有多种合理的实现方式。
最后,很多基准任务来自公开代码仓库,这些数据可能已经被模型学习过,从而导致测试结果被高估。
为了解决这些问题,Cursor 构建了一个内部评测系统 CursorBench。
它的任务来源于真实开发者在 Cursor 中的使用记录,通过工具将代码修改与最初的用户请求进行对应,从而形成真实问题与标准解决方案的配对。
CursorBench 的任务规模也明显大于传统 Benchmark,往往涉及更多代码行数和更多文件。例如,一些任务需要处理大型代码库、排查生产日志,甚至运行复杂实验。这样的设计更接近真实开发环境。
在评估模型时,Cursor 不仅关注任务是否完成,还会综合考虑代码质量、执行效率以及与用户的交互体验。同时,他们还会观察模型完成任务所消耗的 token 数量,从而评估性能与成本之间的平衡。
除了离线测试,Cursor 还会在真实用户流量中进行在线评估,通过 A/B 实验观察模型更新是否真的提升了开发效率。有时某个模型在离线评分中表现很好,但在真实使用中却可能降低用户体验,这些问题只能通过线上测试发现。
通过这种 线上与线下结合的评测方式,Cursor 能够更准确地判断模型质量,并持续优化 AI 编程体验。
随着 AI Agent 开始执行更长时间运行的任务,例如自动调试系统或运行实验,Cursor 也在规划下一代评测体系,以适应未来的软件开发模式。