★★★★★ · 论文精读 · 2026-06-17
详解 arXiv:2504.14945 的 LUFFY:为什么纯 on-policy RLVR 会受限于模型初始能力,为什么朴素 SFT 又容易僵硬模仿,以及如何用 Mixed-Policy GRPO 与 policy shaping 在 off-policy 指导下学习推理。
★★★★★ · 主题归档 · 2026-06-16
梳理带 think/反思轨迹的 SFT 为什么会有 off-policy 问题,以及从 CoT、搜索轨迹、RL 到 OPD/Agent OPD 的最新研究进展。
★★★★★ · 论文精读 · 2026-06-15
详解 Just-In-Time Reinforcement Learning 如何把历史轨迹记忆转成 advantage,在推理时直接加到候选动作 logits 上,从而在不更新参数的情况下实现类似 KL 约束策略优化的 agent 持续学习。
★★★★★ · 主题归档 · 2026-06-15
系统梳理 DPO 从 RLHF/PPO 替代方案到偏好优化基础组件的发展脉络,分析 IPO、KTO、ORPO、SimPO、Step-DPO、Online DPO 等后续路线,以及 DPO 在 reasoning 与 LLM Agent 场景中的核心瓶颈。
★★★★★ · 主题归档 · 2026-06-15
系统梳理 LLM 指令遵循从 prompt、多任务指令微调、RLHF、合成指令数据,到复杂约束评测、指令层级、prompt injection 与 agent 行动合规的发展脉络,并分析当前未解问题与研究机会。