Tag Archive
标签:GIGPO
这里整理所有带有「GIGPO」标签的文章,方便按主题快速回看。
首页
每日调研
论文精读
主题归档
实验分析
复现指南
GIGPO
共 1 篇
主题归档 · 2026-06-21
GIGPO 与 HGPO:长轨迹 LLM Agent 强化学习里的“分组信用分配”
从 GRPO 到 GIGPO、HGPO,解释为什么长轨迹 Agent RL 需要从整条轨迹奖励走向分层、上下文一致的步级优势估计。
LLM Agent
Reinforcement Learning
GRPO
GIGPO
HGPO
Credit Assignment