Tag Archive
标签:Off-Policy
这里整理所有带有「Off-Policy」标签的文章,方便按主题快速回看。
首页
每日调研
论文精读
主题归档
实验分析
复现指南
Off-Policy
共 2 篇
论文精读 · 2026-06-17
LUFFY 论文详解:Learning to Reason under Off-Policy Guidance
详解 arXiv:2504.14945 的 LUFFY:为什么纯 on-policy RLVR 会受限于模型初始能力,为什么朴素 SFT 又容易僵硬模仿,以及如何用 Mixed-Policy GRPO 与 policy shaping 在 off-policy 指导下学习推理。
LLM Reasoning
RLVR
Off-Policy
GRPO
LUFFY
Reasoning RL
主题归档 · 2026-06-16
Think SFT 的 Off-Policy 问题:从反思轨迹到 On-Policy Distillation 的研究线
梳理带 think/反思轨迹的 SFT 为什么会有 off-policy 问题,以及从 CoT、搜索轨迹、RL 到 OPD/Agent OPD 的最新研究进展。
LLM Reasoning
SFT
Off-Policy
On-Policy Distillation
Agent RL