Tag Archive

标签:LUFFY

这里整理所有带有「LUFFY」标签的文章,方便按主题快速回看。

LUFFY

共 1 篇
论文精读 · 2026-06-17

LUFFY 论文详解:Learning to Reason under Off-Policy Guidance

详解 arXiv:2504.14945 的 LUFFY:为什么纯 on-policy RLVR 会受限于模型初始能力,为什么朴素 SFT 又容易僵硬模仿,以及如何用 Mixed-Policy GRPO 与 policy shaping 在 off-policy 指导下学习推理。
LLM ReasoningRLVROff-PolicyGRPOLUFFYReasoning RL