Tag Archive
标签:Reasoning RL
这里整理所有带有「Reasoning RL」标签的文章,方便按主题快速回看。
首页
每日调研
论文精读
主题归档
实验分析
复现指南
Reasoning RL
共 1 篇
论文精读 · 2026-06-17
LUFFY 论文详解:Learning to Reason under Off-Policy Guidance
详解 arXiv:2504.14945 的 LUFFY:为什么纯 on-policy RLVR 会受限于模型初始能力,为什么朴素 SFT 又容易僵硬模仿,以及如何用 Mixed-Policy GRPO 与 policy shaping 在 off-policy 指导下学习推理。
LLM Reasoning
RLVR
Off-Policy
GRPO
LUFFY
Reasoning RL