Tag Archive

标签：Off-Policy

这里整理所有带有「Off-Policy」标签的文章，方便按主题快速回看。

Off-Policy

共 3 篇

论文精读 · 2026-06-17

详解 arXiv:2504.14945 的 LUFFY：为什么纯 on-policy RLVR 会受限于模型初始能力，为什么朴素 SFT 又容易僵硬模仿，以及如何用 Mixed-Policy GRPO 与 policy shaping 在 off-policy 指导下学习推理。

主题归档 · 2026-06-17

以 LUFFY 为锚点，梳理 reasoning SFT 中 teacher trace 与 student policy 分布错配的问题，以及后续沿 RLVR、OPD、backtracking、agent step-wise distillation 等方向形成的研究现状。

主题归档 · 2026-06-16

梳理带 think/反思轨迹的 SFT 为什么会有 off-policy 问题，以及从 CoT、搜索轨迹、RL 到 OPD/Agent OPD 的最新研究进展。