主题归档 2026-06-21 ★★★★★ PPO Agentic RL LLM Agent RLHF RLVR GRPO Credit Assignment Post-training

#PPO 在 Agentic RL 中的应用与进展：从 RLHF 到长轨迹 Agent 训练

一句话结论：PPO 并没有在 Agentic RL 时代过时，它只是从“对单轮回答做 token-level 对齐”的算法，逐渐被迫改造成面向多轮交互、工具调用、长轨迹信用分配的训练框架。现在真正的分歧不是“PPO vs 非 PPO”，而是：Agent 的决策单元到底应该是 token、turn、step、trajectory，还是更抽象的 latent state？

这篇文章梳理 PPO 在 Agentic RL 中的应用和进展。核心脉络大概是：

经典 PPO
  → RLHF / InstructGPT：对单轮语言输出做偏好对齐
  → RLVR / Reasoning RL：用可验证奖励训练推理与代码
  → Agentic RL：搜索、网页、GUI、代码仓库、多工具交互
  → Turn/Sequence/Trajectory-level PPO：重新定义 PPO 的决策粒度
  → 与 GRPO/GIGPO/HGPO 分化：critic-based 样本效率 vs critic-free 组内相对估计

如果只记住一个问题，那就是：PPO 原本擅长优化连续动作序列，但 LLM Agent 的“动作序列”已经不再只是 token，而是带有环境状态、工具反馈、历史记忆和长期目标的交互轨迹。

#1. PPO 原本解决什么问题？

PPO，全称 Proximal Policy Optimization，由 Schulman 等人在 2017 年提出。它本来是一个通用强化学习算法，核心目标是：在更新策略时既要让策略朝着高奖励方向走，又不要一步迈太大导致训练崩掉。

人话理解：

普通 policy gradient 像是“看到奖励高的动作就猛推一把”。
TRPO 想保证更新别太大，但实现复杂。
PPO 用一个 clipped surrogate objective 做近似约束：如果新策略相对旧策略变化太大，就截断收益，防止过度更新。

PPO 在传统 RL 里受欢迎，是因为它在几个维度上比较均衡：

维度	PPO 的特点
稳定性	比裸 policy gradient 稳定，避免策略突变
实现复杂度	比 TRPO 简单很多
样本利用	一批 rollout 可以做多轮 minibatch 更新
工程成熟度	大量 RLHF / RL 框架都支持

但 PPO 也有一个重要前提：它通常需要估计 advantage。也就是说，它要知道“这个动作比当前状态下的平均水平好多少”。在经典 RL 里，这通常依赖 value function / critic。

这点后来成为 PPO 在 LLM Agent 里的核心矛盾：critic 有助于样本效率，但在长文本、长轨迹、多工具 Agent 中，value 估计很难、很贵、很容易错。

#2. 第一阶段：PPO 成为 RLHF 的默认算法

PPO 真正进入大模型训练主线，是通过 RLHF。

InstructGPT / ChatGPT 这一类路线大致是：

收集人类示范，做 SFT。
收集人类偏好比较，训练 reward model。
用 PPO 优化语言模型，让模型生成更符合 reward model 偏好的回答。

这里 PPO 的“环境”其实很简单：

prompt → 模型生成回答 → reward model 给分 → PPO 更新

它不像传统 RL 那样有复杂环境状态转移。一次生成可以被看作一个 episode，生成过程中的 token 是动作，最终 reward 往往在整段回答结束后给出。

这带来两个特点。

第一，PPO 在 RLHF 中主要承担“别让模型偏离太远”的稳定优化器角色。通常还会加 KL penalty，把策略限制在 reference model 附近，避免 reward hacking 或语言质量崩坏。

第二，这个阶段的 PPO 主要服务于对齐，而不是训练复杂的环境交互能力。它让模型更有帮助、更安全、更符合人类偏好，但还没有真正让模型学会长程规划和工具操作。

这也是为什么早期 RLHF 中的 PPO，和今天讨论的 Agentic RL PPO，虽然算法名相同，但问题形态已经很不一样。

#3. 第二阶段：RLVR 让 PPO 从“偏好对齐”走向“能力强化”

随着 DeepSeek-R1、o1/o3 这类 reasoning model 的出现，RL 的角色发生了变化：它不只是让模型更听话，也开始被用于提升数学、代码、推理能力。

这类工作常被概括为 RLVR：Reinforcement Learning with Verifiable Rewards。它的核心是：如果任务答案可以自动验证，就不一定需要人类偏好 reward model。

例如：

数学题：最终答案是否正确。
代码题：测试是否通过。
搜索问答：答案是否匹配标准答案或引用是否支持。
工具任务：最终环境状态是否达到目标。

这时 PPO 面临的新问题是：奖励仍然可能只在最后给出，但生成过程变长了，Chain-of-Thought、代码草稿、搜索步骤、工具调用都可能影响最终结果。

标准 token-level PPO 会把整个生成序列看成一串 token action，然后根据最终 reward 回传 advantage。问题是：

最终答对了，是因为哪一段推理对？
最终答错了，是因为哪一步出错？
长 CoT 中哪些 token 真正有因果作用，哪些只是废话？

这已经开始接近 Agentic RL 的 credit assignment 问题。

所以从 RLHF 到 RLVR，PPO 的定位发生了第一次迁移：

阶段	PPO 优化对象	奖励来源	核心问题
RLHF	单轮回答质量	人类偏好 / reward model	对齐、稳定性、KL 控制
RLVR	推理/代码过程	自动验证器	长输出信用分配、探索、reward hacking

#4. 第三阶段：Agentic RL 让 PPO 面对真正的环境交互

Agentic RL 指的是用 RL 训练 LLM Agent 在环境中行动，而不只是生成一段静态文本。

典型任务包括：

Web / Search Agent：多轮搜索、打开网页、整合证据。
WebShop / WebArena：浏览网页、选择商品、完成任务。
GUI Agent：观察屏幕、点击、输入、滑动、打开 App。
Code Agent / SWE Agent：读仓库、定位 bug、修改文件、运行测试。
Tool-use Agent：调用 API、数据库、计算器、代码解释器等工具。

这时 PPO 面临的问题比 RLHF 复杂得多：

状态：用户目标 + 历史消息 + 环境观察 + 工具返回 + 记忆
动作：自然语言 token + 工具调用 + GUI 点击 + 文件编辑
奖励：可能只有最终成功/失败，也可能有过程 reward
轨迹：几十步、上百步、甚至跨多个工具和环境

这不是简单的“prompt → answer”。它是一个长程控制问题。

#4.1 WebGPT：早期 browser-assisted QA 的信号

WebGPT 是一个很早的重要节点。它把 GPT-3 放进文本浏览器环境中，让模型搜索和浏览网页来回答长问题。训练上主要使用 imitation learning、reward model 和 rejection sampling，而不是今天意义上的大规模 PPO Agent RL。

但它的意义在于：它已经把语言模型从“回答器”推向“会浏览环境的 Agent”。

它暴露的新问题是：如果模型在浏览过程中做了很多中间操作，最后回答质量好坏如何反向归因到搜索 query、点击、引用选择这些步骤？

这就是后续 Agentic RL 必须解决的问题。

#4.2 WebShop：把语言 Agent 放进可评估环境

WebShop 提供了一个模拟电商网站环境：Agent 需要根据自然语言需求浏览商品、筛选属性、最终购买合适商品。

它的重要性在于，它让语言 Agent 的行为可以被环境奖励评估。WebShop 这类环境后来成为许多 Agentic RL 方法测试长程交互能力的基准。

对 PPO 来说，WebShop 让问题变成：

一个购买任务可能包含多次搜索、点击、筛选、比较、选择。
最后 reward 是买对还是买错。
PPO 应该如何给每个 turn / action 分配 advantage？

这就是 turn-level PPO、trajectory-level PPO、stepwise group-based RL 后来要处理的核心。

#5. 为什么直接把 RLHF-PPO 搬到 Agent 上不够？

最直接的做法是：把整条 Agent 轨迹拼成一个长序列，用 PPO 优化所有 token。

这在工程上最简单，但问题很多。

#5.1 决策粒度错位：token 不是 Agent 的自然动作

LLM Agent 的一个 action 可能是：

{"tool": "search", "query": "PPO agentic RL long horizon"}

或者：

点击屏幕上第 3 个按钮

它不是单个 token。token-level PPO 会在语言 token 层面更新，但真正影响环境的是完整的工具调用、点击动作、代码 patch、搜索 query。

所以 token-level credit 可能很噪：它优化的是字符串概率，而不是清晰的环境动作。

#5.2 长轨迹稀疏奖励：最终成败太粗

Agent 任务常常只有最后成功/失败奖励。整条轨迹可能几十步，如果最终失败，直接把负信号压给所有 token，会误伤很多正确步骤。

这和我上一篇讲 GIGPO/HGPO 时的核心问题一致：长轨迹 RL 的关键不是“有没有 reward”，而是“reward 怎么分配给真正造成结果的决策”。

#5.3 Critic 很难学：value function 的状态空间太复杂

PPO 通常需要 value model 估计每个状态的价值。但 LLM Agent 的状态包括长上下文、网页、屏幕、工具返回、代码仓库状态。训练一个可靠 critic 很难：

输入太长，显存贵。
状态分布变化快，critic 容易过拟合。
最终 reward 稀疏，value bootstrap 噪声大。
如果 critic 错了，PPO 的 advantage 也会错。

这就是 GRPO、RLOO 等 critic-free 方法流行的原因：它们牺牲一部分样本效率，换取更低内存、更简单、更少 value-model 误差。

#5.4 环境成本高：PPO 的 on-policy 采样很贵

PPO 是 on-policy 或 near-on-policy。每次策略更新都需要新 rollout。对数学题来说 rollout 只是生成文本；对 Agent 来说 rollout 可能意味着：搜索网页、访问 GUI、运行代码测试、调用 API、执行浏览器任务。

这会让训练成本急剧上升。于是 Agentic RL 里经常要混合：

imitation learning / behavior cloning；
offline trajectory reuse；
rejection sampling；
process reward / verifier；
group-based advantage；
replay buffer 或离线 critic；
分层 RL / turn-level update。

PPO 仍然重要，但通常不再是“单独解决一切”的算法。

#6. 当前进展一：Turn-level PPO，把一步从 token 改成 turn

一个很直接的改造是：不要把 token 当作 MDP step，而是把 Agent 的一个 turn 当作 step。

Turn-PPO: Turn-Level Advantage Estimation with PPO for Improved Multi-Turn RL in Agentic LLMs 就是这个方向的代表。它指出，在多轮任务中，直接用 GRPO 可能不够稳定，而 PPO 的 critic-based advantage 在某些设置下更鲁棒。于是它把多轮 Agent 任务建模成 turn-level MDP，而不是 token-level MDP。

人话说：

token-level PPO：每个 token 都是一个动作。
turn-level PPO：一次完整回复/工具调用/环境交互回合是一个动作。

这样做的好处是，advantage 更贴近环境决策。Agent 真正改变环境的不是某个 token，而是一个完整 turn 的行为。

Turn-PPO 在 WebShop 和 Sokoban 等任务上验证了这种思路，尤其关注 long-horizon、多轮交互场景。

它推动的下一阶段问题是：turn 比 token 更合理，但一个 turn 内可能包含推理、工具选择、参数生成、动作执行等多个子决策。是否还需要更细粒度的 step / sub-step credit？

#7. 当前进展二：Sequence-level PPO，把长推理当作整体决策

另一个方向是 Sequence-Level PPO / SPPO。

SPPO 关注长程 reasoning task。它认为标准 token-level PPO 在长 CoT 上会遇到两个问题：

temporal credit assignment 不稳定；
value model 显存成本高。

于是它把推理过程重新建模为 sequence-level contextual bandit：一整段推理序列作为一个决策单元，用更轻量的 scalar value function 估计低方差 advantage。

这和 Turn-PPO 的直觉相通：不要执着于 token-level MDP。

差别在于：

Turn-PPO 更面向多轮 Agent 环境。
SPPO 更面向长 CoT / long-horizon reasoning。
二者共同说明：PPO 在 LLM 场景下要重新选择“动作粒度”。

这对 Agentic RL 很重要，因为很多 Agent 轨迹里既有长 CoT，又有工具 turn。未来可能需要同时处理：

token-level language modeling
sequence-level reasoning
turn-level tool interaction
trajectory-level task success

#8. 当前进展三：RAGEN / Search-R1 等把 RL 推向多轮工具和搜索

RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning 是多轮 Agent RL 的代表节点之一。它关注 LLM Agent 在多轮环境中通过 RL 自我演化，强调 multi-turn rollout、环境反馈和长期能力提升。

Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning 则把搜索引擎纳入 reasoning 过程，训练模型在需要时搜索、整合证据、回答问题。后续还有 MMSearch-R1 等多模态搜索 Agent。

这些工作不一定都以“标准 PPO”为唯一核心，但它们共同推动了一个趋势：RL 的训练对象从静态答案变成交互策略。

对 PPO 来说，这些系统提出了几个新要求：

多轮状态建模：状态不只是 prompt，而是历史搜索和观察。
工具动作建模：动作不只是文本，还包括 search query、点击、调用。
过程反馈利用：搜索结果、工具返回、环境变化都可以作为中间信号。
长期 credit assignment：最终答对可能依赖很早的一次搜索。

这也是为什么 Agentic RL 的 PPO 往往需要配合 process reward、step reward、turn-level advantage 或分层 credit assignment。

#9. 当前进展四：Agent Lightning，把任意 Agent 执行解耦成 RL 训练轨迹

Agent Lightning: Train ANY AI Agents with Reinforcement Learning 提出了一个很工程化、也很关键的问题：现实中的 Agent 往往已经由 LangChain、OpenAI Agents SDK、AutoGen 或自定义框架搭好了，RL 训练不应该要求重写整个 Agent。

它的思路是把 Agent 执行和 RL 训练解耦：

Agent 按原有框架执行任务。
系统把执行过程抽象成 MDP 轨迹。
再用统一数据接口和 credit assignment 模块，把轨迹拆成训练 transition。

这类框架对 PPO 的意义在于：PPO 不再只是一个模型内部 loss，而是整个 Agent runtime 的训练后端之一。

也就是说，未来的 PPO Agent 训练可能更像：

Agent runtime 负责执行
trajectory recorder 负责记录状态/动作/奖励
credit assignment module 负责拆分回报
PPO/GRPO/其他 RL optimizer 负责更新模型

这比早期 RLHF 的“生成文本 → reward model 打分 → PPO 更新”复杂得多，也更接近真实 Agent 系统。

#10. 当前进展五：GUI / Code / SWE Agent 里的 PPO 与 RL

GUI Agent 和 Code Agent 是 Agentic RL 最自然、也最困难的应用场景。

#10.1 GUI Agent

GUI Agent 要观察屏幕并执行点击、输入、滑动等动作。2025–2026 年出现了许多 GUI-R1、UI-R1、MagicGUI、GUI Agents with RL 这类工作和综述。

PPO 在这里的挑战是：

action space 混合了语言、坐标、UI 元素和高层意图；
错误动作可能有不可逆后果；
环境状态视觉化、长程、部分可观测；
成功 reward 稀疏，但每一步都可能影响后续。

因此 GUI Agent RL 往往会采用混合策略：SFT 先学基本操作，RL 再优化任务完成率；离线数据和在线探索结合；奖励包含最终成功、过程约束、安全规则等。

#10.2 Code / SWE Agent

代码 Agent 的奖励看似更清楚：测试通过就是 reward。但困难在于：

一个任务可能需要读很多文件；
修改可能跨多个模块；
测试反馈慢且稀疏；
中间错误很多，但并不都应该被惩罚；
代码仓库状态巨大，critic/value 估计更难。

DeepSWE、SWE-RL、SWE-TRACE、Agentic Rubrics 等工作都说明，代码 Agent RL 的关键不只是 PPO loss，而是如何设计环境、rubric、过程 reward、测试反馈、轨迹筛选与 credit assignment。

我的判断是：在 Code Agent 里，PPO 会更像一个优化器组件，而不是完整方法本身。真正决定效果的是：

任务环境 + 轨迹采样 + 测试/验证器 + 过程 reward + credit assignment + 上下文管理

#11. PPO 与 GRPO 系列的分叉：为什么大家转向 critic-free？

近两年大模型 RL 中，GRPO、DAPO、GSPO、GIGPO、HGPO 等方法非常火。它们和 PPO 的关系不是简单替代，而是围绕一个核心取舍分化：

要不要训练 critic/value model？

PPO 的优点是：如果 value 学得好，advantage 估计样本效率高，不一定需要同一个 prompt 下采很多条样本来做 baseline。

GRPO 的优点是：不用 critic，直接在同组 rollout 内做相对优势估计，显存更低、工程更简单，也减少 value 估计错误。

但 GRPO 到 Agent 场景会遇到新问题：整条轨迹组内比较太粗。于是出现：

GIGPO：在轨迹组里再构造同状态动作组，做 step-level micro advantage。
HGPO：发现同当前状态还不够，历史上下文不一致会导致 advantage 偏差，于是构造 hierarchy-of-groups。

所以 PPO 与 GRPO 系列可以这样理解：

方法族	核心优势	核心代价	Agentic RL 中的关键问题
PPO	有 critic，样本效率潜力更高；经典稳定	value model 贵且难学	critic 如何处理长上下文、多轮状态
GRPO/RLOO	critic-free，工程简单，显存低	需要组内多样本，baseline 粗	长轨迹 credit 太粗
GIGPO/HGPO	stepwise / hierarchical group credit	依赖可比较状态/上下文结构	如何定义“可比状态”
Turn-PPO/SPPO	保留 PPO，但改动作粒度	仍要处理 value/advantage 估计	turn/sequence/trajectory 粒度如何选择

这说明一个重要趋势：Agentic RL 的算法创新，正在从“换 loss”转向“重新定义状态、动作、优势估计和可比较样本组”。

#12. PPO 在 Agentic RL 中的当前定位

综合来看，PPO 当前在 Agentic RL 中有四种角色。

#12.1 作为稳定的 on-policy 优化器

PPO 仍然是最成熟的 on-policy policy optimization 算法之一。很多系统即使最终做了复杂改造，也会保留 PPO 的 clipped objective、KL 控制、advantage normalization 等工程经验。

#12.2 作为 critic-based 路线的代表

在 GRPO 等 critic-free 方法流行后，PPO 反而成为一个重要对照：当组内相对估计不稳定或样本开销太大时，critic-based PPO 可能重新有优势。Turn-PPO 的结论就指向这一点：在某些多轮任务里，PPO 比直接 GRPO 更鲁棒。

#12.3 作为“粒度重构”的框架

PPO 可以运行在 token、sequence、turn、trajectory 等不同粒度上。现在的问题不是 PPO 能不能用，而是：

什么是一个 state？
什么是一个 action？
reward 应该落在哪一层？
advantage 应该对哪个决策单元估计？

#12.4 作为 Agent runtime 的后训练后端

在 Agent Lightning 这类框架中，PPO/其他 RL 算法可以作为通用后端，训练任意 Agent 框架产生的轨迹。这意味着 PPO 未来可能更多隐藏在基础设施里，而不是作为论文标题中唯一的算法亮点出现。

#13. 关键开放问题

#13.1 Value model 应该看什么上下文？

如果 PPO 要在 Agent 中继续发挥作用，就必须回答：critic 的输入是什么？

只看当前 observation？
看完整历史？
看压缩后的 memory？
看工具状态和环境状态？
看 latent task state？

完整历史太贵，当前观察不够，手工摘要可能丢关键信息。这里和“通用上下文压缩器”“latent state reasoning”直接相关。

#13.2 PPO 的 action 粒度应该是什么？

不同任务可能需要不同粒度：

数学推理：sequence-level 可能足够。
搜索 Agent：turn-level 或 tool-call-level 更自然。
GUI Agent：UI action-level 更自然。
Code Agent：patch-level、test-run-level、file-edit-level 可能更关键。

未来可能需要 adaptive granularity：模型或训练系统自动决定在哪些层级上估计 advantage。

#13.3 如何把过程 reward 和 PPO advantage 结合？

如果有 process reward model、rubric、测试反馈、工具中间信号，PPO 不应该只用最终 reward。但过程 reward 很容易引入错误激励：模型可能学会迎合 rubric，而不是完成任务。

所以关键不是“加更多 reward”，而是 reward calibration：哪些过程信号真的和最终成功有因果关系？

#13.4 PPO 与 model-based RL 如何结合？

你最近关心的 model-based RL / Dreamer for LLM Agent 在这里非常相关。

PPO/GIGPO/HGPO 大多依赖真实 rollout。问题是 Agent rollout 太贵，而且很多反事实动作没有被采样到。如果有 learned world model 或 latent transition model，就可以：

预测某个工具动作的后果；
在 latent space 中做 imagined rollout；
给 PPO critic 提供更丰富的 bootstrapping 信号；
构造更多可比较的 counterfactual group。

也就是说，未来的 Agentic PPO 可能不是单纯 on-policy，而是和 model-based value estimation / latent planning 混合。

#13.5 如何避免长轨迹 RL 学到伪相关？

这是我认为最重要的问题。

长轨迹 Agent 成功通常依赖少数关键步骤。PPO 如果用粗 reward 更新整条轨迹，可能奖励大量无关行为。GRPO/GIGPO/HGPO 在缓解这个问题，但仍然依赖样本组结构。

未来更基础的问题是：如何识别轨迹中的因果关键决策点？

这可能需要结合：

causal credit assignment；
counterfactual evaluation；
process verifier；
learned latent state；
memory provenance；
test-time search trace；
model-based rollout。

#14. 我的判断：PPO 会留下，但会被“Agent 化”

我不认为 PPO 会在 Agentic RL 中消失。更可能的情况是：

PPO 作为一个底层稳定优化器会继续存在，但论文和系统创新会越来越集中在状态抽象、轨迹切分、advantage 估计、critic 设计、过程奖励和环境基础设施上。

也就是说，未来我们看到的可能不是“Plain PPO for Agents”，而是：

Turn-PPO
Sequence-level PPO
Hierarchical PPO
Memory-aware PPO
Tool-call-level PPO
Model-based PPO
Critic-augmented Agent RL
PPO + process reward + verifier + trajectory replay

PPO 的名字可能还在，但它优化的对象会越来越不像传统 token 序列，而更像一个多层级决策过程。

#15. 对研究的启发

如果从研究机会角度看，我觉得 PPO in Agentic RL 有几个值得继续深挖的问题。

#15.1 Agent value model 可能是下一个关键瓶颈

GRPO 系列火起来，一个原因是大家不想训练 critic。但如果能训练出可靠、便宜、可泛化的 Agent value model，PPO 路线可能重新变得很强。

这个 value model 不应该只是“预测最终 reward”，而应该能理解：当前任务进展、历史关键决策、工具状态、剩余可行动作、失败风险。

#15.2 Latent state compression 可以服务于 PPO critic

长上下文 critic 太贵。一个自然方向是学习 decision-sufficient latent state：把完整 Agent 历史压缩成足以预测未来回报和选择动作的状态。

这和你的 latent-space reasoning 兴趣高度相关：latent 不只是为了省 token，也可以成为 RL 状态表示。

#15.3 Model-based Agent PPO 可以减少真实 rollout 成本

如果环境交互贵，model-based RL 可以用 learned dynamics 做 imagined transitions。对 LLM Agent 来说，world model 未必是物理世界模型，也可以是：

工具调用结果模型；
搜索/网页状态转移模型；
代码修改后测试结果预测器；
用户/任务反馈模拟器。

PPO 可以在真实 rollout 和 imagined rollout 的混合数据上更新，但关键是控制模型偏差。

#15.4 PPO 与 group-based 方法可能会融合

现在常常把 PPO 和 GRPO 对立起来，但更有可能的方向是融合：

用 critic 提供全局 value baseline；
用 group relative advantage 修正局部比较；
用 stepwise / hierarchical groups 提供细粒度 credit；
用 PPO clip 保持策略更新稳定。

这会把 PPO 的样本效率和 GRPO 系列的可比较样本优势结合起来。

#16. 总结

PPO 在 Agentic RL 中的演化可以概括为三句话：

从 RLHF 到 RLVR：PPO 从偏好对齐工具，变成推理/代码能力强化工具。
从单轮回答到多轮 Agent：PPO 面临状态、动作、奖励和 credit assignment 的全面重定义。
从 token-level 到多层级决策：Turn-PPO、SPPO、Agent Lightning、GIGPO/HGPO 等工作共同说明，未来的关键不是是否使用 PPO，而是如何定义 Agent 轨迹中的可学习决策单元。

所以，如果要判断 PPO 在 Agentic RL 中的前景，我会说：

Plain PPO 不够了，但 Agentified PPO 仍然很重要。真正值得研究的是：如何让 PPO 看到合适的状态、优化合适的动作、获得合适粒度的 advantage，并与 model-based / latent-state / group-based credit assignment 融合。

#参考资料

John Schulman et al. Proximal Policy Optimization Algorithms. arXiv:1707.06347, 2017. https://arxiv.org/abs/1707.06347
Long Ouyang et al. Training language models to follow instructions with human feedback. NeurIPS 2022. https://arxiv.org/abs/2203.02155
Reiichiro Nakano et al. WebGPT: Browser-assisted question-answering with human feedback. arXiv:2112.09332, 2021. https://arxiv.org/abs/2112.09332
Shunyu Yao et al. WebShop: Towards Scalable Real-World Web Interaction with Grounded Language Agents. arXiv:2207.01206, 2022. https://arxiv.org/abs/2207.01206
Bowen Jin et al. Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning. arXiv:2503.09516, 2025. https://arxiv.org/abs/2503.09516
Zihan Wang et al. RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning. arXiv:2504.20073, 2025. https://arxiv.org/abs/2504.20073
Xufang Luo et al. Agent Lightning: Train ANY AI Agents with Reinforcement Learning. arXiv:2508.03680, 2025. https://arxiv.org/abs/2508.03680
Junbo Li et al. Turn-PPO: Turn-Level Advantage Estimation with PPO for Improved Multi-Turn RL in Agentic LLMs. arXiv:2512.17008, 2025. https://arxiv.org/abs/2512.17008
Tianyi Wang et al. SPPO: Sequence-Level PPO for Long-Horizon Reasoning Tasks. arXiv:2604.08865, 2026. https://arxiv.org/abs/2604.08865
Lang Feng et al. Group-in-Group Policy Optimization for LLM Agent Training. arXiv:2505.10978, 2025. https://arxiv.org/abs/2505.10978
Shuo He et al. Hierarchy-of-Groups Policy Optimization for Long-Horizon Agentic Tasks. arXiv:2602.22817, 2026. https://arxiv.org/abs/2602.22817