Tag Archive

标签:PPO

这里整理所有带有「PPO」标签的文章,方便按主题快速回看。

PPO

共 1 篇
主题归档 · 2026-06-14

小白版讲解:RL 是不是“全局参数化黑箱优化 + 数值最优控制”?

用小白能听懂的方式拆解 V777 关于强化学习的知乎回答:对偶配对、占据测度、HJB 对偶、Actor-Critic、PPO、single shooting、MPC,以及这套叙事对 LLM Agent 的启发。
强化学习最优控制占据测度对偶优化PPOMPCLLM Agent