#GIGPO 与 HGPO:长轨迹 LLM Agent 强化学习里的“分组信用分配”
核心结论先说:GIGPO 和 HGPO 不是在“换一个 PPO 损失函数”这么简单,而是在回答一个更根本的问题:当 LLM Agent 跑出一条很长的交互轨迹,最后只得到一个稀疏成败信号时,训练算法到底应该把功劳/锅分给哪一步动作?
这两篇工作可以看作 GRPO 在 LLM Agent 场景下的连续演化:
- GRPO:在同一个问题上采样多条完整回答/轨迹,用组内相对好坏估计 advantage,省掉 critic。
- GIGPO:发现 Agent 不是单轮回答,而是一串环境交互,所以除了整条轨迹的相对好坏,还要在“同一个环境状态”下比较不同动作,给出步级 credit。
- HGPO:进一步指出,“同一个当前状态”还不够,因为 Agent 的历史上下文可能不同;如果历史不一致,把这些步骤硬塞进同一组比较会产生偏差,所以要构造多层 group,在 bias 与 variance 之间折中。
这篇文章会尽量用人话讲清楚:这些算法解决什么问题、为什么设计成这样、和长轨迹 LLM Agent / model-based RL / latent reasoning 有什么关系。


#1. 背景:为什么 GRPO 到 Agent 场景会变难?
GRPO 这类 group-based RL 在数学推理、代码生成等单轮任务里非常自然:给同一个 prompt 采样多条答案,最后用 verifier 或 reward model 判断谁好谁坏。假设同一题采样了 8 个答案,其中 3 个对、5 个错,那么对的样本 advantage 为正,错的样本 advantage 为负。它不需要额外训练 value model,因此有几个优点:
- critic-free:不用维护 value network,内存和训练复杂度更低。
- 相对评价:不要求 reward 标度特别精确,只要组内能排序或归一化。
- 适合大模型后训练:rollout、打分、更新的工程路径比较直接。
但 LLM Agent 的轨迹不是“一问一答”。它更像:
观察环境 → 思考 → 执行动作 → 新观察 → 再思考 → 再行动作 → …… → 最终成功/失败
比如 ALFWorld 中,Agent 要在模拟家居环境里找物体、打开容器、移动到某处;WebShop 中,Agent 要浏览商品、筛选属性、比较价格、最终购买。最后的奖励可能只有一个:任务成功还是失败。
这就带来一个老问题:credit assignment。
如果整条轨迹成功了,是否每一步都应该被奖励?不一定。它可能中间走了很多弯路,只是最后碰巧成功。如果整条轨迹失败了,是否每一步都应该被惩罚?也不一定。它可能前面做得很好,只是最后一步点错了。
在单轮任务中,“样本 = 决策单元”基本成立;在 Agent 任务中,“整条轨迹 = 很多决策单元的组合”。直接把整条轨迹的 reward 均摊给每个 token / 每一步,会让学习信号非常粗糙。
#2. GIGPO:在“整条轨迹组”里面再构造“同状态动作组”
GIGPO 全称是 Group-in-Group Policy Optimization for LLM Agent Training。从名字就能看出,它想在原来的 group 里再套一个 group。
论文里的关键设计是两层 advantage:
- episode-level / macro advantage:像 GRPO 一样,比较同一个任务下多条完整轨迹的最终表现。
- step-level / micro advantage:找到不同轨迹里重复出现的同一个环境状态,把从这个状态出发的不同动作放在一起比较。
人话类比:
- GRPO 问的是:这一整局游戏,哪条路线最后赢了?
- GIGPO 进一步问:在同一个局面下,Agent 选择“打开冰箱”和“走向客厅”,哪个动作更可能导向成功?

#2.1 为什么“同一个状态”很重要?
强化学习里的 advantage 本质上是:在某个状态下,某个动作比平均动作好多少。
如果我们比较两个动作,它们最好是在类似上下文中发生的。比如:
状态 s:Agent 站在厨房,看见冰箱和桌子。
动作 a1:open fridge
动作 a2:go to living room
如果最终 a1 所在轨迹成功、a2 所在轨迹失败,那么我们就有理由认为,在这个状态下 open fridge 可能更好。
这比“成功轨迹里所有动作都加分,失败轨迹里所有动作都扣分”细很多。GIGPO 的 anchor state grouping 就是在做这件事:跨轨迹寻找相同/重复的环境状态,把从同一状态出发的动作聚成 step-level group。
#2.2 GIGPO 的优势:不引入 critic,也不额外 rollout
这点很关键。很多细粒度 credit assignment 方法会自然想到训练 value model、process reward model,或者做 counterfactual rollout。但这些都会增加成本:
- value model 占显存、训练不稳定;
- PRM 需要步骤级标注或额外监督;
- counterfactual rollout 会让环境交互成本上升。
GIGPO 的聪明之处在于:它利用同一批 rollout 里自然出现的重复状态,事后构造 step group。也就是说,它试图在不改变 rollout 成本的前提下,从同样的数据里榨出更细的 credit 信号。
论文报告中,GIGPO 在 ALFWorld 上相对 GRPO 提升超过 12%,在 WebShop 上超过 9%,并且使用 Qwen2.5-1.5B/3B/7B-Instruct 做实验;同时强调 GPU memory overhead 与 rollout 设置基本保持一致。
#3. GIGPO 的隐含假设:当前状态一样,就可以比较吗?
GIGPO 的关键假设可以简化成一句话:如果两个 step 的当前环境状态一样,那么它们的动作可以放到一起比较。
这个假设在很多环境里是有道理的,但对 LLM Agent 来说并不总是成立。原因是 LLM 的“状态”不只是外部环境状态,还包括模型看到的历史上下文。
例如两个轨迹都到了同一个网页商品页:
当前页面:某个 Nike running shoes 商品页。
但两个 Agent 的历史可能不同:
- 轨迹 A:用户要求“红色、尺码 8、价格低于 100 美元”,Agent 已经看过多个候选商品。
- 轨迹 B:用户要求“黑色、防水、适合徒步”,Agent 是从另一个搜索路径跳过来的。
外部页面相同,不代表决策语境相同。对 A 来说,“加入购物车”可能是好动作;对 B 来说,同样动作可能是坏动作。
这就是 HGPO 关注的问题:context inconsistency。
#4. HGPO:同状态还不够,还要看历史上下文一致性
HGPO 全称是 Hierarchy-of-Groups Policy Optimization for Long-Horizon Agentic Tasks。它可以看作对 GIGPO 的进一步修正:GIGPO 做 stepwise group,但 stepwise group 里可能混入历史上下文不一致的样本,导致 advantage 估计有偏。
HGPO 的基本思想是:不要只给每个 step 分配一个 group,而是按照历史上下文一致性的强弱,把它放进多个层级的 group 里,然后分别估计 advantage,再自适应聚合。
人话类比:
- 最粗层:大家是同一个任务下的轨迹,可以比较整局表现。
- 中间层:大家到了同一个当前状态,可以比较局部动作。
- 更细层:大家不仅当前状态相同,之前走过的路径/记忆也更一致,比较更公平。
#4.1 Bias-variance trade-off:为什么不只用最严格的 group?
如果我们要求“当前状态相同 + 历史上下文完全相同”,那比较当然最干净,bias 最小。但问题是:这样的样本太少。
在长轨迹环境里,两个 Agent 走到同一个状态已经不容易;要求它们历史也完全一致,就更稀缺。样本太少会导致 variance 很大,训练信号不稳定。
所以 HGPO 的策略不是二选一,而是构造层级:
- 粗 group:样本多,variance 小,但 bias 大。
- 细 group:样本少,bias 小,但 variance 大。
- 多层聚合:根据情况自适应加权,追求更好的 bias-variance trade-off。
这其实是一个很经典的统计思想:不要迷信最细粒度的信号,也不要退回最粗糙的全局信号,而是在多种粒度之间加权。

#4.2 HGPO 相比 GIGPO 新解决了什么?
可以这样总结:
| 算法 | 主要比较对象 | 解决的问题 | 仍可能的问题 |
|---|---|---|---|
| GRPO | 同一 prompt/任务下的完整轨迹 | 不用 critic 的组内相对优势估计 | 对长轨迹 credit 太粗 |
| GIGPO | 完整轨迹 + 同当前状态的动作 | 给 Agent 每一步更细的 credit | 同状态但历史上下文可能不同 |
| HGPO | 多层上下文一致 group | 缓解 stepwise advantage 的上下文不一致偏差 | 仍依赖可复用的轨迹结构和 group 构造质量 |
HGPO 的贡献不是否定 GIGPO,而是把 GIGPO 暗含的“同状态可比性”条件再细化:可比性不是二值的,而是有层级的。
#5. 这条算法线索背后的大问题:Agent RL 到底缺什么?
把 GRPO → GIGPO → HGPO 串起来看,会发现它们都在围绕同一个核心矛盾:
我们想用便宜、稳定、critic-free 的 group-based RL 训练 LLM Agent,但 Agent 轨迹太长、奖励太稀疏、上下文太复杂,简单组内比较不再足够。
这其实触到了长轨迹 LLM Agent RL 的几个根本问题。
#5.1 稀疏奖励不是唯一问题,错误 credit 才更危险
很多人说长轨迹 RL 难,是因为 reward sparse。这个说法没错,但还不够。
更危险的是:你以为自己在给正确动作加分,其实在奖励错误相关性。
例如一条轨迹成功了,但成功的关键是第 7 步正确检索;第 2、3、4 步只是无意义绕路。如果整条轨迹所有动作都得到正 advantage,模型可能学会更多绕路行为。
相反,如果一条轨迹失败了,但前面 90% 都是对的,最后一步错了;粗粒度惩罚会把前面好的决策也一起打压。
GIGPO/HGPO 都是在减少这种“误伤”和“误奖”。
#5.2 LLM Agent 的状态不是 MDP 里的环境状态
传统 RL 里,state 通常假设包含决策所需信息。但 LLM Agent 的实际决策输入往往是:
系统提示词 + 用户目标 + 历史观察 + 历史动作 + 工具返回 + 当前观察 + scratchpad / memory
所以外部环境状态相同,不代表模型输入状态相同。HGPO 把这个问题明确化了:step-level group 要考虑 historical context consistency。
这对很多 Agent 训练框架都有启发:如果训练代码只按 environment state、URL、observation string 或 tool state 分组,可能仍然忽略了 prompt/history/memory 层面的差异。
#5.3 “分组”本质上是在构造反事实比较
为什么 group-based RL 有效?因为它在近似回答一个反事实问题:
在同一个条件下,如果模型采取另一个动作/生成另一个回答,会不会更好?
GRPO 的“同一个 prompt 多个回答”是最简单的反事实比较。GIGPO 的“同一个状态多个动作”更接近 Agent 场景。HGPO 的“同状态 + 多层历史一致性”则是在追求更公平的反事实基准。
从这个角度看,未来 Agent RL 的关键可能不是单纯改 PPO clip,也不是只堆更大 batch,而是:如何构造高质量、低偏差、足够多样的可比样本组。
#6. 对长轨迹 Agent / model-based RL 的启发
这条线和你最近关心的长轨迹 Agent RL、model-based RL、latent-space reasoning 有几个直接连接。
#6.1 它说明“直接端到端 RL”必须解决 credit granularity
如果一个 Agent 任务有几十步甚至上百步,最终 reward 再可靠,也很难直接告诉模型哪一步导致了成败。GIGPO/HGPO 的方向是:不额外训练 world model,也先从 rollout 数据内部挖局部比较信号。
这可以看作一种轻量级的 credit decomposition。
#6.2 但它仍然没有真正建模环境动力学
GIGPO/HGPO 依赖已采样轨迹里出现的重复状态/相似上下文。如果某个关键反事实动作没有在 rollout 中出现,算法仍然无法知道它会导致什么后果。
这正是 model-based RL 可能切入的地方:如果模型能学习“动作 → 后续状态/成功概率”的内部模型,就不必完全依赖自然采样中的重复状态。换句话说:
- GIGPO/HGPO:从真实 rollout 里找可比组。
- model-based Agent RL:尝试生成/评估更多反事实后果。
二者不是替代关系,而可能是互补关系。
#6.3 latent-space reasoning 可以被看作“更抽象的状态分组”
GIGPO 用显式环境状态分组,HGPO 加入历史上下文层级。更进一步的问题是:什么叫“两个状态本质上相同”?
对 LLM Agent 来说,表面 observation 不同,但任务语义可能相同;表面页面相同,但目标约束可能不同。一个更强的系统可能需要在 latent space 中判断:
- 这两个局面是否在策略上等价?
- 这两个历史是否对下一步决策产生同样约束?
- 哪些差异只是表面文本差异,哪些差异会改变 optimal action?
因此,未来可能出现一种“latent group policy optimization”:不是按字符串相同、环境状态相同来分组,而是按 learned latent state / belief state 来分组。这会把 credit assignment 和 representation learning 绑在一起。
#7. 局限与我的判断
我对这类方法的判断是:方向很重要,但它们更像长轨迹 Agent RL 的过渡性关键组件,而不是最终形态。
原因有三点。
第一,它们确实击中了 GRPO 迁移到 Agent 场景的核心痛点:整轨迹 advantage 太粗,step advantage 又容易比较不公平。
第二,它们保持了 group-based RL 的工程吸引力:critic-free、显存友好、不额外 rollout。这对真实大模型训练非常重要。
第三,它们仍然受限于“已采样轨迹中有什么可比结构”。如果环境探索不足、成功轨迹极少、状态重复率低,group 构造会变弱。对于更开放的 Web、OS、代码仓库级 Agent,状态空间更大、历史更复杂,这个问题会更明显。
所以我会把这条线放在如下位置:
GIGPO/HGPO 是从“单轮 RLVR”走向“长轨迹 Agent RL”的重要桥梁。它们说明了下一阶段算法的核心不只是 reward design,而是 credit assignment + context consistency + counterfactual comparability。
#8. 一句话总结
如果只记住一句话:
GRPO 解决“同一题多答案怎么相对打分”;GIGPO 解决“长轨迹里同一状态下不同动作怎么打分”;HGPO 解决“同一状态但历史不同,怎么避免比较不公平”。
它们共同指向一个更大的研究问题:未来要训练真正可靠的 LLM Agent,不能只问“最终成功了吗”,还要问“成功/失败到底是哪一步、在什么上下文中、相对于哪些可选动作造成的”。
#参考资料
- Lang Feng, Zhenghai Xue, Tingcong Liu, Bo An. Group-in-Group Policy Optimization for LLM Agent Training. arXiv:2505.10978, NeurIPS 2025. https://arxiv.org/abs/2505.10978
- Shuo He, Lang Feng, Qi Wei, Xin Cheng, Lei Feng, Bo An. Hierarchy-of-Groups Policy Optimization for Long-Horizon Agentic Tasks. arXiv:2602.22817, ICLR 2026. https://arxiv.org/abs/2602.22817
- DeepSeek-AI et al. DeepSeekMath / GRPO-related work and follow-up group-based RL methods.