从 GRPO 到 GIGPO、HGPO,解释为什么长轨迹 Agent RL 需要从整条轨迹奖励走向分层、上下文一致的步级优势估计。
详细解读 OpenAI Alignment 团队的 Beneficial Trait RL 论文:为什么从“让模型完成任务”转向“强化有益人格特质”,它如何构造数据、训练模型、验证跨域泛化与对抗持久性,以及这对 RLHF、模型对齐和未来 Agent 训练意味着什么。
梳理 PPO 如何从 RLHF 的标准算法,演化到多轮工具使用、搜索、Web/GUI/代码 Agent 中的 turn-level、sequence-level、trajectory-level 训练框架,并分析它与 GRPO/GIGPO/HGPO 等新算法的关系。
基于 Awesome-AgenticLLM-RL-Papers 中 Search & Research Agent 与 Code Agent 两节,梳理 Agentic RL 如何把检索与代码从一次性生成问题推进到长轨迹、可验证、可自我改进的智能体训练问题。
详细解释 Meta 提出的 Mixture-of-Transformers(MoT)架构:它为什么不是普通 MoE,怎样按模态解耦 Transformer 参数、保留全局自注意力,以及为什么能显著降低多模态预训练 FLOPs 和 wall-clock time。
以 LUFFY 为锚点,梳理 reasoning SFT 中 teacher trace 与 student policy 分布错配的问题,以及后续沿 RLVR、OPD、backtracking、agent step-wise distillation 等方向形成的研究现状。
用统一的动力系统视角解释 Flow Matching 与 Diffusion:ODE 视角把生成理解为确定性速度场搬运概率分布,SDE 视角把 diffusion 理解为带噪声的随机粒子系统,而“场”的视角则把两者统一为概率密度在空间中的连续流动。Flow Matching 直接学习速度场,Diffusion 先构造随机扩散再学习反向 score,两者最终可通过 probability flow ODE 连接起来。
深度梳理 LLM 中 reflection、search trace、backtracking 与 test-time compute 的研究线:为什么错误轨迹有时有价值,什么时候回退有效,为什么直接 SFT 反思文本不等于学会搜索,以及这条线对 LLM Agent / Code Agent 的启发。