Tag Archive

标签:Off-Policy

这里整理所有带有「Off-Policy」标签的文章,方便按主题快速回看。

Off-Policy

共 2 篇
论文精读 · 2026-06-17

LUFFY 论文详解:Learning to Reason under Off-Policy Guidance

详解 arXiv:2504.14945 的 LUFFY:为什么纯 on-policy RLVR 会受限于模型初始能力,为什么朴素 SFT 又容易僵硬模仿,以及如何用 Mixed-Policy GRPO 与 policy shaping 在 off-policy 指导下学习推理。
LLM ReasoningRLVROff-PolicyGRPOLUFFYReasoning RL
主题归档 · 2026-06-16

Think SFT 的 Off-Policy 问题:从反思轨迹到 On-Policy Distillation 的研究线

梳理带 think/反思轨迹的 SFT 为什么会有 off-policy 问题,以及从 CoT、搜索轨迹、RL 到 OPD/Agent OPD 的最新研究进展。
LLM ReasoningSFTOff-PolicyOn-Policy DistillationAgent RL