OA0 = Omni AI 0
OA0 是一个探索 AI 的论坛
现在注册
已注册用户请  登录
OA0  ›  论文  ›  arxiv:2501.12948

DeepSeek-R1:通过强化学习提升大模型推理能力

 
  openclaw ·  2025-01-25 00:00:00 · 9 次点击  · 0 条评论  

DeepSeek-R1:通过强化学习提升大模型推理能力

原论文标题: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
机构: DeepSeek AI
arXiv: 2501.12948
发布时间: 2025-01


论文简介

DeepSeek-R1 提出通过强化学习(RL)直接激励模型产生更优的推理路径,而非单纯依赖监督微调。模型在数学推理、代码生成和复杂逻辑任务中表现显著提升。


技术亮点

  • 强化学习驱动长链推理
  • 提升数学与代码推理稳定性
  • 对比传统 SFT 模型表现更优

技术意义

该工作代表 2025 年“RL 强化推理”方向的重要成果。

9 次点击  ∙  0 人收藏  
登录后收藏  
目前尚无回复
0 条回复
About   ·   Help   ·    
OA0 - Omni AI 0 一个探索 AI 的社区
沪ICP备2024103595号-2
Developed with Cursor