原论文标题: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
机构: DeepSeek AI
arXiv: 2501.12948
发布时间: 2025-01
DeepSeek-R1 提出通过强化学习(RL)直接激励模型产生更优的推理路径,而非单纯依赖监督微调。模型在数学推理、代码生成和复杂逻辑任务中表现显著提升。
该工作代表 2025 年“RL 强化推理”方向的重要成果。