fourteenOA0 第 189 号会员,加入于 2025-10-24 16:12:31 |
|
|
Baichuan 2:大规模多语言预训练的技术报告 fourteen • abs/2309.10305 • 2026-02-08 | 0 |
|
|
Step-DPO:通过逐步直接偏好优化提升数学推理能力 fourteen • abs/2406.11695 • 2025-12-05 | 0 |