主题归档 2026-06-21 ★★★★★ LLM Agent Reinforcement Learning GRPO GIGPO HGPO Credit Assignment

#GIGPO 与 HGPO：长轨迹 LLM Agent 强化学习里的“分组信用分配”

核心结论先说：GIGPO 和 HGPO 不是在“换一个 PPO 损失函数”这么简单，而是在回答一个更根本的问题：当 LLM Agent 跑出一条很长的交互轨迹，最后只得到一个稀疏成败信号时，训练算法到底应该把功劳/锅分给哪一步动作？

这两篇工作可以看作 GRPO 在 LLM Agent 场景下的连续演化：

GRPO：在同一个问题上采样多条完整回答/轨迹，用组内相对好坏估计 advantage，省掉 critic。
GIGPO：发现 Agent 不是单轮回答，而是一串环境交互，所以除了整条轨迹的相对好坏，还要在“同一个环境状态”下比较不同动作，给出步级 credit。
HGPO：进一步指出，“同一个当前状态”还不够，因为 Agent 的历史上下文可能不同；如果历史不一致，把这些步骤硬塞进同一组比较会产生偏差，所以要构造多层 group，在 bias 与 variance 之间折中。

这篇文章会尽量用人话讲清楚：这些算法解决什么问题、为什么设计成这样、和长轨迹 LLM Agent / model-based RL / latent reasoning 有什么关系。

GIGPO 论文首页：Group-in-Group Policy Optimization for LLM Agent Training — GIGPO 论文首页

HGPO 论文首页：Hierarchy-of-Groups Policy Optimization for Long-Horizon Agentic Tasks — HGPO 论文首页

#1. 背景：为什么 GRPO 到 Agent 场景会变难？

GRPO 这类 group-based RL 在数学推理、代码生成等单轮任务里非常自然：给同一个 prompt 采样多条答案，最后用 verifier 或 reward model 判断谁好谁坏。假设同一题采样了 8 个答案，其中 3 个对、5 个错，那么对的样本 advantage 为正，错的样本 advantage 为负。它不需要额外训练 value model，因此有几个优点：

critic-free：不用维护 value network，内存和训练复杂度更低。
相对评价：不要求 reward 标度特别精确，只要组内能排序或归一化。
适合大模型后训练：rollout、打分、更新的工程路径比较直接。

但 LLM Agent 的轨迹不是“一问一答”。它更像：

观察环境 → 思考 → 执行动作 → 新观察 → 再思考 → 再行动作 → …… → 最终成功/失败

比如 ALFWorld 中，Agent 要在模拟家居环境里找物体、打开容器、移动到某处；WebShop 中，Agent 要浏览商品、筛选属性、比较价格、最终购买。最后的奖励可能只有一个：任务成功还是失败。

这就带来一个老问题：credit assignment。

如果整条轨迹成功了，是否每一步都应该被奖励？不一定。它可能中间走了很多弯路，只是最后碰巧成功。如果整条轨迹失败了，是否每一步都应该被惩罚？也不一定。它可能前面做得很好，只是最后一步点错了。

在单轮任务中，“样本 = 决策单元”基本成立；在 Agent 任务中，“整条轨迹 = 很多决策单元的组合”。直接把整条轨迹的 reward 均摊给每个 token / 每一步，会让学习信号非常粗糙。

#2. GIGPO：在“整条轨迹组”里面再构造“同状态动作组”

GIGPO 全称是 Group-in-Group Policy Optimization for LLM Agent Training。从名字就能看出，它想在原来的 group 里再套一个 group。

论文里的关键设计是两层 advantage：

episode-level / macro advantage：像 GRPO 一样，比较同一个任务下多条完整轨迹的最终表现。
step-level / micro advantage：找到不同轨迹里重复出现的同一个环境状态，把从这个状态出发的不同动作放在一起比较。

人话类比：

GRPO 问的是：这一整局游戏，哪条路线最后赢了？
GIGPO 进一步问：在同一个局面下，Agent 选择“打开冰箱”和“走向客厅”，哪个动作更可能导向成功？

GIGPO 方法示意页：宏观轨迹优势 + 微观步级优势 — GIGPO 方法示意页

#2.1 为什么“同一个状态”很重要？

强化学习里的 advantage 本质上是：在某个状态下，某个动作比平均动作好多少。

如果我们比较两个动作，它们最好是在类似上下文中发生的。比如：

状态 s：Agent 站在厨房，看见冰箱和桌子。
动作 a1：open fridge
动作 a2：go to living room

如果最终 a1 所在轨迹成功、a2 所在轨迹失败，那么我们就有理由认为，在这个状态下 open fridge 可能更好。

这比“成功轨迹里所有动作都加分，失败轨迹里所有动作都扣分”细很多。GIGPO 的 anchor state grouping 就是在做这件事：跨轨迹寻找相同/重复的环境状态，把从同一状态出发的动作聚成 step-level group。

#2.2 GIGPO 的优势：不引入 critic，也不额外 rollout

这点很关键。很多细粒度 credit assignment 方法会自然想到训练 value model、process reward model，或者做 counterfactual rollout。但这些都会增加成本：

value model 占显存、训练不稳定；
PRM 需要步骤级标注或额外监督；
counterfactual rollout 会让环境交互成本上升。

GIGPO 的聪明之处在于：它利用同一批 rollout 里自然出现的重复状态，事后构造 step group。也就是说，它试图在不改变 rollout 成本的前提下，从同样的数据里榨出更细的 credit 信号。

论文报告中，GIGPO 在 ALFWorld 上相对 GRPO 提升超过 12%，在 WebShop 上超过 9%，并且使用 Qwen2.5-1.5B/3B/7B-Instruct 做实验；同时强调 GPU memory overhead 与 rollout 设置基本保持一致。

#3. GIGPO 的隐含假设：当前状态一样，就可以比较吗？

GIGPO 的关键假设可以简化成一句话：如果两个 step 的当前环境状态一样，那么它们的动作可以放到一起比较。

这个假设在很多环境里是有道理的，但对 LLM Agent 来说并不总是成立。原因是 LLM 的“状态”不只是外部环境状态，还包括模型看到的历史上下文。

例如两个轨迹都到了同一个网页商品页：

当前页面：某个 Nike running shoes 商品页。

但两个 Agent 的历史可能不同：

轨迹 A：用户要求“红色、尺码 8、价格低于 100 美元”，Agent 已经看过多个候选商品。
轨迹 B：用户要求“黑色、防水、适合徒步”，Agent 是从另一个搜索路径跳过来的。

外部页面相同，不代表决策语境相同。对 A 来说，“加入购物车”可能是好动作；对 B 来说，同样动作可能是坏动作。

这就是 HGPO 关注的问题：context inconsistency。

#4. HGPO：同状态还不够，还要看历史上下文一致性

HGPO 全称是 Hierarchy-of-Groups Policy Optimization for Long-Horizon Agentic Tasks。它可以看作对 GIGPO 的进一步修正：GIGPO 做 stepwise group，但 stepwise group 里可能混入历史上下文不一致的样本，导致 advantage 估计有偏。

HGPO 的基本思想是：不要只给每个 step 分配一个 group，而是按照历史上下文一致性的强弱，把它放进多个层级的 group 里，然后分别估计 advantage，再自适应聚合。

人话类比：

最粗层：大家是同一个任务下的轨迹，可以比较整局表现。
中间层：大家到了同一个当前状态，可以比较局部动作。
更细层：大家不仅当前状态相同，之前走过的路径/记忆也更一致，比较更公平。

#4.1 Bias-variance trade-off：为什么不只用最严格的 group？

如果我们要求“当前状态相同 + 历史上下文完全相同”，那比较当然最干净，bias 最小。但问题是：这样的样本太少。

在长轨迹环境里，两个 Agent 走到同一个状态已经不容易；要求它们历史也完全一致，就更稀缺。样本太少会导致 variance 很大，训练信号不稳定。

所以 HGPO 的策略不是二选一，而是构造层级：

粗 group：样本多，variance 小，但 bias 大。
细 group：样本少，bias 小，但 variance 大。
多层聚合：根据情况自适应加权，追求更好的 bias-variance trade-off。

这其实是一个很经典的统计思想：不要迷信最细粒度的信号，也不要退回最粗糙的全局信号，而是在多种粒度之间加权。

HGPO 框架示意页：多层 group 处理上下文不一致问题 — HGPO 框架示意页

#4.2 HGPO 相比 GIGPO 新解决了什么？

可以这样总结：

算法	主要比较对象	解决的问题	仍可能的问题
GRPO	同一 prompt/任务下的完整轨迹	不用 critic 的组内相对优势估计	对长轨迹 credit 太粗
GIGPO	完整轨迹 + 同当前状态的动作	给 Agent 每一步更细的 credit	同状态但历史上下文可能不同
HGPO	多层上下文一致 group	缓解 stepwise advantage 的上下文不一致偏差	仍依赖可复用的轨迹结构和 group 构造质量

HGPO 的贡献不是否定 GIGPO，而是把 GIGPO 暗含的“同状态可比性”条件再细化：可比性不是二值的，而是有层级的。

#5. 这条算法线索背后的大问题：Agent RL 到底缺什么？

把 GRPO → GIGPO → HGPO 串起来看，会发现它们都在围绕同一个核心矛盾：

我们想用便宜、稳定、critic-free 的 group-based RL 训练 LLM Agent，但 Agent 轨迹太长、奖励太稀疏、上下文太复杂，简单组内比较不再足够。

这其实触到了长轨迹 LLM Agent RL 的几个根本问题。

#5.1 稀疏奖励不是唯一问题，错误 credit 才更危险

很多人说长轨迹 RL 难，是因为 reward sparse。这个说法没错，但还不够。

更危险的是：你以为自己在给正确动作加分，其实在奖励错误相关性。

例如一条轨迹成功了，但成功的关键是第 7 步正确检索；第 2、3、4 步只是无意义绕路。如果整条轨迹所有动作都得到正 advantage，模型可能学会更多绕路行为。

相反，如果一条轨迹失败了，但前面 90% 都是对的，最后一步错了；粗粒度惩罚会把前面好的决策也一起打压。

GIGPO/HGPO 都是在减少这种“误伤”和“误奖”。

#5.2 LLM Agent 的状态不是 MDP 里的环境状态

传统 RL 里，state 通常假设包含决策所需信息。但 LLM Agent 的实际决策输入往往是：

系统提示词 + 用户目标 + 历史观察 + 历史动作 + 工具返回 + 当前观察 + scratchpad / memory

所以外部环境状态相同，不代表模型输入状态相同。HGPO 把这个问题明确化了：step-level group 要考虑 historical context consistency。

这对很多 Agent 训练框架都有启发：如果训练代码只按 environment state、URL、observation string 或 tool state 分组，可能仍然忽略了 prompt/history/memory 层面的差异。

#5.3 “分组”本质上是在构造反事实比较

为什么 group-based RL 有效？因为它在近似回答一个反事实问题：

在同一个条件下，如果模型采取另一个动作/生成另一个回答，会不会更好？

GRPO 的“同一个 prompt 多个回答”是最简单的反事实比较。GIGPO 的“同一个状态多个动作”更接近 Agent 场景。HGPO 的“同状态 + 多层历史一致性”则是在追求更公平的反事实基准。

从这个角度看，未来 Agent RL 的关键可能不是单纯改 PPO clip，也不是只堆更大 batch，而是：如何构造高质量、低偏差、足够多样的可比样本组。

#6. 对长轨迹 Agent / model-based RL 的启发

这条线和你最近关心的长轨迹 Agent RL、model-based RL、latent-space reasoning 有几个直接连接。

#6.1 它说明“直接端到端 RL”必须解决 credit granularity

如果一个 Agent 任务有几十步甚至上百步，最终 reward 再可靠，也很难直接告诉模型哪一步导致了成败。GIGPO/HGPO 的方向是：不额外训练 world model，也先从 rollout 数据内部挖局部比较信号。

这可以看作一种轻量级的 credit decomposition。

#6.2 但它仍然没有真正建模环境动力学

GIGPO/HGPO 依赖已采样轨迹里出现的重复状态/相似上下文。如果某个关键反事实动作没有在 rollout 中出现，算法仍然无法知道它会导致什么后果。

这正是 model-based RL 可能切入的地方：如果模型能学习“动作 → 后续状态/成功概率”的内部模型，就不必完全依赖自然采样中的重复状态。换句话说：

GIGPO/HGPO：从真实 rollout 里找可比组。
model-based Agent RL：尝试生成/评估更多反事实后果。

二者不是替代关系，而可能是互补关系。

#6.3 latent-space reasoning 可以被看作“更抽象的状态分组”

GIGPO 用显式环境状态分组，HGPO 加入历史上下文层级。更进一步的问题是：什么叫“两个状态本质上相同”？

对 LLM Agent 来说，表面 observation 不同，但任务语义可能相同；表面页面相同，但目标约束可能不同。一个更强的系统可能需要在 latent space 中判断：

这两个局面是否在策略上等价？
这两个历史是否对下一步决策产生同样约束？
哪些差异只是表面文本差异，哪些差异会改变 optimal action？

因此，未来可能出现一种“latent group policy optimization”：不是按字符串相同、环境状态相同来分组，而是按 learned latent state / belief state 来分组。这会把 credit assignment 和 representation learning 绑在一起。

#7. 局限与我的判断

我对这类方法的判断是：方向很重要，但它们更像长轨迹 Agent RL 的过渡性关键组件，而不是最终形态。

原因有三点。

第一，它们确实击中了 GRPO 迁移到 Agent 场景的核心痛点：整轨迹 advantage 太粗，step advantage 又容易比较不公平。

第二，它们保持了 group-based RL 的工程吸引力：critic-free、显存友好、不额外 rollout。这对真实大模型训练非常重要。

第三，它们仍然受限于“已采样轨迹中有什么可比结构”。如果环境探索不足、成功轨迹极少、状态重复率低，group 构造会变弱。对于更开放的 Web、OS、代码仓库级 Agent，状态空间更大、历史更复杂，这个问题会更明显。

所以我会把这条线放在如下位置：

GIGPO/HGPO 是从“单轮 RLVR”走向“长轨迹 Agent RL”的重要桥梁。它们说明了下一阶段算法的核心不只是 reward design，而是 credit assignment + context consistency + counterfactual comparability。

#8. 一句话总结

如果只记住一句话：

GRPO 解决“同一题多答案怎么相对打分”；GIGPO 解决“长轨迹里同一状态下不同动作怎么打分”；HGPO 解决“同一状态但历史不同，怎么避免比较不公平”。

它们共同指向一个更大的研究问题：未来要训练真正可靠的 LLM Agent，不能只问“最终成功了吗”，还要问“成功/失败到底是哪一步、在什么上下文中、相对于哪些可选动作造成的”。

#参考资料

Lang Feng, Zhenghai Xue, Tingcong Liu, Bo An. Group-in-Group Policy Optimization for LLM Agent Training. arXiv:2505.10978, NeurIPS 2025. https://arxiv.org/abs/2505.10978
Shuo He, Lang Feng, Qi Wei, Xin Cheng, Lei Feng, Bo An. Hierarchy-of-Groups Policy Optimization for Long-Horizon Agentic Tasks. arXiv:2602.22817, ICLR 2026. https://arxiv.org/abs/2602.22817
DeepSeek-AI et al. DeepSeekMath / GRPO-related work and follow-up group-based RL methods.