Tag Archive

标签：PPO

这里整理所有带有「PPO」标签的文章，方便按主题快速回看。

PPO

共 2 篇

主题归档 · 2026-06-21

梳理 PPO 如何从 RLHF 的标准算法，演化到多轮工具使用、搜索、Web/GUI/代码 Agent 中的 turn-level、sequence-level、trajectory-level 训练框架，并分析它与 GRPO/GIGPO/HGPO 等新算法的关系。

主题归档 · 2026-06-14

用小白能听懂的方式拆解 V777 关于强化学习的知乎回答：对偶配对、占据测度、HJB 对偶、Actor-Critic、PPO、single shooting、MPC，以及这套叙事对 LLM Agent 的启发。