Tag Archive

标签：GIGPO

这里整理所有带有「GIGPO」标签的文章，方便按主题快速回看。

GIGPO

共 1 篇

主题归档 · 2026-06-21

GIGPO 与 HGPO：长轨迹 LLM Agent 强化学习里的“分组信用分配”

从 GRPO 到 GIGPO、HGPO，解释为什么长轨迹 Agent RL 需要从整条轨迹奖励走向分层、上下文一致的步级优势估计。

LLM Agent Reinforcement Learning GRPO GIGPO HGPO Credit Assignment