Tag Archive

标签：Reasoning RL

这里整理所有带有「Reasoning RL」标签的文章，方便按主题快速回看。

Reasoning RL

共 1 篇

论文精读 · 2026-06-17

详解 arXiv:2504.14945 的 LUFFY：为什么纯 on-policy RLVR 会受限于模型初始能力，为什么朴素 SFT 又容易僵硬模仿，以及如何用 Mixed-Policy GRPO 与 policy shaping 在 off-policy 指导下学习推理。