CRPE：扩展大语言模型的代码推理能力

OA0

OA0 是一个探索 AI 的社区

现在注册

已注册用户请登录

作者： Ningxin Gui, Qianghuai Jia, Feijun Jiang, Yuling Jiao, dechun wang, Jerry Zhijian Yang

提交日期： 2025年5月15日

摘要：
本文介绍了CRPE（代码推理过程增强器），这是一个用于数据合成和模型训练的创新性三阶段框架，旨在推进大型语言模型（LLMs）中复杂代码推理能力的发展。CRPE建立在现有的系统-1模型之上，致力于解决增强LLMs在代码生成任务中分析和逻辑处理能力的根本性挑战。该框架提供了一种方法严谨且可实施的途径，以培养语言模型的高级代码推理能力。

通过实施CRPE，我们成功开发了一个增强版的COT-Coder，该模型在代码生成任务中表现出显著的改进。在LiveCodeBench（20240701-20240901）上的评估结果表明，我们基于Qwen2.5-Coder-7B-Base开发的COT-Coder-7B-StepDPO模型，其pass@1准确率达到21.88，超过了所有规模相似甚至更大的模型。此外，我们基于Qwen2.5-Coder-32B-Base开发的COT-Coder-32B-StepDPO模型表现出更优越的性能，其pass@1准确率为35.08，在该基准测试中超越了GPT4O。总体而言，CRPE代表了一种全面的、开源的方法，它涵盖了从指令数据获取、专家代码推理数据合成到最终形成自主推理增强机制的完整流程。

主题/分类：
* Software Engineering (cs.SE)
* Artificial Intelligence (cs.AI)

论文地址：https://arxiv.org/abs/2505.10594

62 次点击 ∙ 0 人收藏

登录后收藏

0 条回复