Tag Archive

标签:Credit Assignment

这里整理所有带有「Credit Assignment」标签的文章,方便按主题快速回看。

Credit Assignment

共 2 篇
主题归档 · 2026-06-21

GIGPO 与 HGPO:长轨迹 LLM Agent 强化学习里的“分组信用分配”

从 GRPO 到 GIGPO、HGPO,解释为什么长轨迹 Agent RL 需要从整条轨迹奖励走向分层、上下文一致的步级优势估计。
LLM AgentReinforcement LearningGRPOGIGPOHGPOCredit Assignment
主题归档 · 2026-06-21

PPO 在 Agentic RL 中的应用与进展:从 RLHF 到长轨迹 Agent 训练

梳理 PPO 如何从 RLHF 的标准算法,演化到多轮工具使用、搜索、Web/GUI/代码 Agent 中的 turn-level、sequence-level、trajectory-level 训练框架,并分析它与 GRPO/GIGPO/HGPO 等新算法的关系。
PPOAgentic RLLLM AgentRLHFRLVRGRPOCredit AssignmentPost-training