主题归档 2026-06-14 ★★★★★ 强化学习最优控制占据测度对偶优化 PPO MPC LLM Agent

#小白版讲解：RL 是不是“全局参数化黑箱优化 + 数值最优控制”？

这篇是对知乎作者 V777 那篇回答的讲解版。原回答的问题是：“从数学的角度来说，强化学习究竟是在干什么？”原文链接：<https://www.zhihu.com/question/15481741792/answer/2043388799275816781>。

先说结论。那篇回答不是在按 Sutton & Barto 的传统路线讲 RL，而是在用最优控制、测度优化、对偶理论的语言重写 RL。

它的核心观点可以压缩成一句话：

很多 RL 算法，尤其 PPO 这类方法，可以被理解成：用一个全局参数化的策略，在模拟器或真实系统上 rollout，然后用黑箱优化的方式，求一个数值最优控制问题。

更短一点：

RL = 全局参数化的黑箱优化 + 数值最优控制。

这句话很有攻击性。它不是说所有 RL 研究都没价值，而是在批评一种叙事：RL 社区经常把一些来自 control、planning、optimization 的老问题重新包装成“learning”问题，导致初学者只学到一堆算法技巧，却没看到背后的统一数学结构。

这篇讲解会把原文里比较难的词拆开讲：

对偶配对是什么；
为什么“求期望”可以写成函数和测度的配对；
什么是 occupation measure，占据测度；
为什么 MDP 可以写成 $\max_\pi \langle r, \mu_\pi^\gamma \rangle$ ；
为什么说 model-free 不是“没有模型”，而是“不显式写模型”；
Actor-Critic 为什么可以看成 primal-dual 优化；
Advantage 为什么能和 HJB slack 联系起来；
PPO 的 clipping / KL trust region 到底在干什么；
single shooting、multiple shooting、MPC 和 RL 有什么关系；
这套视角对 LLM Agent / test-time optimization 有什么启发。

我会尽量少用“高等数学黑话”，但有些公式绕不开。每个公式后面都配人话解释。

#1. 这篇回答到底想反驳什么？

很多人理解 RL 的默认方式是这样的：

RL 是一种 learning 范式。监督学习有标签，强化学习没有标签，只有奖励。agent 和环境交互，然后通过奖励学会策略。

这套叙事没错，但它容易把 RL 讲成一个独立王国：好像 RL 有自己独特的问题、自己独特的算法、自己独特的理论传统。

V777 的回答想说：别急着把 RL 神秘化。

从数学上看，很多 RL 问题本来就是最优控制问题：

给定一个系统动力学，给定一个代价或奖励函数，找一条控制策略，让累计代价最小或累计奖励最大。

这件事 control 社区研究了很久。动态规划、HJB 方程、PMP、MPC、trajectory optimization、shooting method、collocation method、primal-dual 方法，全都和它有关。

那么 RL 和传统最优控制有什么区别？

一个常见答案是：RL 不知道模型。

但原文会反问：真的不知道模型吗？

如果你能在模拟器里 rollout，你其实有一个隐式模型。你可能没有写出解析形式的 $f(x,u)$ 或 $P(s'|s,a)$ ，但你能调用 simulator：

(x_t,u_t) \mapsto x_{t+1}

这就足够做优化了。

所以所谓 model-free，很多时候不是“没有模型”，而是：

我不显式写出模型方程，也不显式对模型求导。我只把系统当黑箱，给它动作，看它吐出下一步状态和奖励。

这就是“黑箱优化”的味道。

#2. 黑箱优化是什么？先用调参来理解

假设你有一个函数：

J(\theta)

你想找到一个 $\theta$ ，让 $J(\theta)$ 最大。

如果你知道 $J$ 的公式，也能求导，那就可以梯度上升：

\theta \leftarrow \theta + \alpha \nabla_\theta J(\theta)

但很多时候你不知道公式，也不能求导。

比如你想调一个机器人控制器的参数 $\theta$ 。你只能：

设置一组参数；
让机器人跑一遍；
看它摔没摔、跑多远、耗多少能；
得到一个分数。

你看不到内部精确公式，只能试。

这就是黑箱优化：

我不知道目标函数内部长什么样，但我可以查询它的输入输出，然后想办法找更好的输入。

RL 里的策略参数 $\theta$ 也很像这样。

你设置一个策略 $\pi_\theta$ ，让它和环境交互，得到一批轨迹和奖励，然后更新 $\theta$ 。

从这个角度看，PPO 等算法确实很像一种特殊的黑箱优化器。

但原文更进一步：它不是普通黑箱优化，而是“带动力学约束的黑箱优化”，也就是数值最优控制。

#3. 数值最优控制是什么？

最优控制问题可以写得很朴素：

我有一个系统，它会随时间变化。我能控制它的一部分输入。我想找到一串控制，让系统走出一条最好的轨迹。

比如无人车：

状态 $x$ ：位置、速度、朝向；
控制 $u$ ：油门、刹车、方向盘；
动力学：给定当前状态和控制，下一刻车在哪里；
目标：安全、快、舒适、能耗低。

连续时间里常写成：

\dot x = f(x,u)

离散时间里可以写成：

x_{t+1}=F(x_t,u_t)

最优控制就是找 $u_t$ ，让总代价最小：

\min_{u_0,u_1,\dots} \sum_t \ell(x_t,u_t)

RL 只是把它换成奖励最大化：

\max_\pi \mathbb E\left[\sum_t \gamma^t r(x_t,u_t)\right]

所以从结构上看，RL 和最优控制很近。

区别通常在于：

control 更喜欢显式模型、局部线性化、稳定性分析、在线优化；
RL 更喜欢采样、策略参数化、大规模函数逼近、离线训练再部署。

但它们不是两个宇宙。

#4. 对偶配对：把“函数”和“分布”放在一起算分

原文第一节讲“对偶配对转移求导对象”。这部分看起来最吓人，其实可以先从期望讲起。

我们平时写期望：

\mathbb E[f(X)]

如果 $X$ 的分布是 $\varphi$ ，那它也可以写成积分：

\mathbb E_\varphi[f(X)] = \int f(x)\,\varphi(dx)

原文把它写成：

\langle f,\varphi\rangle

这个尖括号就是“配对”。

你可以把它理解成：

一个函数 $f$ 负责给每个位置打分，一个分布 $\varphi$ 负责告诉你每个位置出现多少。两者配对以后，就是平均分。

比如：

$f(x)$ ：某个地点的收益；
$\varphi(dx)$ ：你有多大概率去到这个地点；
$\int f(x)\varphi(dx)$ ：你的平均收益。

所以“函数和测度的对偶配对”没有那么玄。它就是：

分布告诉你在哪里取样，函数告诉你取样位置值多少钱，两者合起来就是期望收益。

这一步非常重要，因为 RL 的目标本来就是一个期望：

\mathbb E[\text{累计奖励}]

只要能写成期望，就能写成某种配对。

#5. 分部积分：为什么导数可以“搬到另一边”？

原文用分部积分举例：

\int u'(x)\varphi(x)dx = -\int u(x)\varphi'(x)dx + \text{边界项}

如果边界项为 0，就有：

\int u'(x)\varphi(x)dx = -\int u(x)\varphi'(x)dx

这句话在说：

本来导数作用在 $u$ 上，现在可以通过分部积分，把导数转移到 $\varphi$ 上。

更抽象地写：

\langle Df,\varphi\rangle = \langle f,D^*\varphi\rangle

其中 $D$ 是求导算子， $D^*$ 是它的对偶算子。

这有什么用？

有些时候， $f$ 很难求导，甚至不可导。但我们不直接碰 $Df$ ，而是把导数“搬到”另一个更好处理的对象上。

这在 PDE 弱解、Galerkin 方法、变分法、概率流、diffusion、flow matching 里都很常见。

原文想强调的是：

很多现代机器学习方法，本质上都在利用这种“把困难对象上的导数转移到另一个对象上”的思想。

用于优化时，这就给了一个路子：

我不直接对复杂 cost functional 求导，而是把它放进和概率测度的配对里，通过采样和分布参数来优化。

这就是 stochastic relaxation 的味道。

#6. Stochastic relaxation：把一个确定性优化问题变成分布优化

假设你要最大化一个很难优化的函数：

\max_x f(x)

直接对 $x$ 优化可能很难。stochastic relaxation 会换一种看法：

不直接找一个点 $x$ ，而是找一个概率分布 $\rho$ ，让从这个分布里采样出来的点平均得分高。

写成：

\max_\rho \int f(x)\rho(dx) = \max_\rho \langle f,\rho\rangle

如果最后 $\rho$ 集中到最优点附近，就相当于找到好解。

这有什么好处？

你可以对分布参数做优化。比如让 $\rho_\theta$ 是一个高斯分布、一个神经网络策略诱导的轨迹分布，或者别的可采样分布。

然后你不用显式对 $f$ 求导，只要能采样、能评估 $f$ ，就能更新 $\theta$ 。

这就是“用概率测度和目标函数配对，然后通过采样求解”。

RL 就很像这样：

reward $r$ 是打分函数；
策略 $\pi_\theta$ 诱导出一堆轨迹；
轨迹诱导出一个分布；
目标是让这个分布落在高 reward 区域。

#7. 把 MDP 写成轨迹空间上的配对

现在进入 RL。

一个 discounted MDP 的目标通常写成：

\max_\pi \mathbb E_{u_t\sim\pi}\left[\sum_{t=0}^{\infty}\gamma^t r(x_t,u_t)\right]

意思是：找一个策略 $\pi$ ，让折扣累计奖励最大。

一条轨迹记作：

\tau=(x_0,u_0,x_1,u_1,x_2,u_2,\dots)

策略 $\pi$ 会诱导一个轨迹分布：

\tau\sim \mathbb P^\pi

每条轨迹的总奖励写成：

R(\tau)=\sum_{t=0}^{\infty}\gamma^t r(x_t,u_t)

于是 MDP 目标可以写成：

\max_\pi \mathbb E_{\tau\sim\mathbb P^\pi}[R(\tau)] =\max_\pi \langle R,\mathbb P^\pi\rangle

这一步没做任何魔法。只是把“期望累计奖励”写成“轨迹奖励函数”和“轨迹概率分布”的配对。

人话就是：

策略决定你会产生哪些轨迹，以及每条轨迹出现的概率；奖励函数给每条轨迹打分。优化策略，就是让轨迹分布更多落到高分轨迹上。

这已经很接近“control as inference”的视角：

好轨迹是高概率的，坏轨迹是低概率的；控制问题变成在轨迹空间里找一个好分布。

但问题是，轨迹空间太大了。

#8. 轨迹空间为什么太大？

轨迹空间是：

X\times U\times X\times U\times X\times U\times\cdots

也就是状态、动作、状态、动作，一直无限展开。

一条完整轨迹包含所有时间步的信息。

如果你的 reward 依赖完整历史，那确实需要完整轨迹。但很多标准 MDP 的 reward 是 Markov 的：

r(x_t,u_t)

它只看当前状态和当前动作。

这时完整轨迹分布其实有很多冗余。

因为计算总奖励时，你只需要知道：

这条轨迹在每个状态-动作位置上停留了多久。

不需要记住完整先后顺序的全部细节。

这就引出 occupation measure，占据测度。

#9. Occupation measure：一条轨迹在哪里花了多少时间

Occupation measure 可以翻译成“占据测度”。小白版理解：

它记录一条轨迹在每个状态-动作区域里待了多久。

假设你玩一个游戏，一条轨迹走了 100 步。我们不关心完整顺序，只统计：

在新手村打怪花了多少时间；
在商店买装备花了多少时间；
在 boss 房间战斗花了多少时间；
每个地方做了哪些动作。

这就是“占据”。

对于一条具体轨迹 $\tau$ ，discounted occupation measure 写成：

\mu_\tau^\gamma(A)=\sum_{t=0}^{\infty}\gamma^t \mathbf 1_A(x_t,u_t)

这里 $A\subset X\times U$ ，表示状态-动作空间里的一个区域。

$\mathbf 1_A(x_t,u_t)$ 是指示函数：

如果 $(x_t,u_t)\in A$ ，就是 1；
否则就是 0。

所以这个公式的意思是：

沿着这条轨迹，把每个时间步是否落在区域 $A$ 里加起来。越早的时间步权重大，越晚的时间步乘上 $\gamma^t$ ，权重变小。

也可以写成 Dirac 测度的形式：

\mu_\tau^\gamma=\sum_{t=0}^{\infty}\gamma^t\delta_{(x_t,u_t)}

不用怕 $\delta$ 。它就是“在这个具体点上放一个质量”。

所以 $\mu_\tau^\gamma$ 是把整条轨迹压成一张“访问热力图”：哪里被访问得多，哪里质量就大。

#10. 为什么占据测度可以替代轨迹？

因为 Markov reward 是逐步相加的：

R(\tau)=\sum_{t=0}^{\infty}\gamma^t r(x_t,u_t)

而占据测度正好记录每个 $(x_t,u_t)$ 出现的折扣次数。

所以：

R(\tau)=\langle r,\mu_\tau^\gamma\rangle

翻译：

reward 函数 $r$ 给每个状态-动作点打分，占据测度 $\mu$ 告诉你这条轨迹在每个点待了多久。两者配对，就是总奖励。

这非常关键。

它把“完整轨迹上的总奖励”压成了“状态-动作空间上的函数-测度配对”。

对于一个策略 $\pi$ ，它会诱导很多可能轨迹。我们取期望：

\mu_\pi^\gamma=\mathbb E_{\tau\sim\mathbb P^\pi}[\mu_\tau^\gamma]

这就是策略 $\pi$ 的平均占据测度。

于是 MDP 目标变成：

\max_\pi \langle r,\mu_\pi^\gamma\rangle

这就是原文里最重要的重写。

它的人话版本是：

策略决定系统会在哪些状态-动作位置上花时间。奖励函数给这些位置打分。优化策略，就是改变这张访问热力图，让系统更多待在高奖励区域，少待在低奖励区域。

这比“agent 学习策略”更像 control / optimization 的语言。

#11. 为什么说 RL 是“全局参数化”？

PPO 这类算法通常会直接参数化一个策略：

\pi_\theta(u|x)

也就是用一组神经网络参数 $\theta$ ，定义所有状态下怎么选动作。

这个策略一旦确定，就会诱导整个轨迹分布，也会诱导占据测度：

\theta \mapsto \pi_\theta \mapsto \mathbb P^{\pi_\theta} \mapsto \mu_{\pi_\theta}^\gamma

所以优化目标变成：

\max_\theta \langle r,\mu_{\pi_\theta}^\gamma\rangle

这就是“全局参数化”：

用同一组参数 $\theta$ ，一次性定义整个状态空间里的闭环策略。

它的好处是通用，复杂系统也能塞进一个大网络。

但坏处也明显：

表征复杂度很高。你要学一个全局函数，覆盖很多状态，即使真正需要优化的只是某条 nominal 轨迹附近的一小块区域。

原文批评的就是这里：很多控制问题不一定需要学一个全局策略。你也可以只在当前轨迹附近做局部优化，或者只优化未来一小段时间的动作序列。

这就是 MPC / trajectory optimization 的思路。

#12. Model-free 真的“没有模型”吗？

原文有个很重要的说法：

RL 的所谓 model-free，本质上是不显式需要 model 表达式；而一个 ODE simulator / 真机数据还是需要的。

这句话值得多讲。

如果你做 MuJoCo 机器人 RL，你说自己是 model-free，因为算法不需要写出动力学方程：

x_{t+1}=F(x_t,u_t)

也不需要对 $F$ 求导。

但你每次 rollout 的时候，MuJoCo simulator 都在帮你计算下一步状态。

也就是说，你没有“显式模型”，但你有一个“可查询模型”。

这就像：

显式模型：我知道函数公式；
黑箱模型：我不知道公式，但我能输入 $(x,u)$ ，它输出 $x'$ 。

Model-free RL 通常依赖后者。

如果是真机训练，那真机本身就是黑箱环境。你不能对真机求导，但你能试动作、看结果。

所以 model-free 不是“完全脱离模型”。更准确地说是：

不显式建模、不显式求导，而是通过采样和 rollout 隐式满足动力学约束。

#13. 动力学约束：RL 为什么不是无约束优化？

表面上，PPO 好像在优化：

\max_\theta \langle r,\mu_{\pi_\theta}^\gamma\rangle

看起来只是调参数。

但注意， $\mu_{\pi_\theta}^\gamma$ 不是任意测度。它必须来自真实系统动力学。

你不能随便说“我想让占据测度全都集中在高奖励区域”。系统不一定能到那里。

比如机器人不能瞬移到目标点。车不能违反动力学突然横移。机械臂不能穿过桌子。

所以真正的问题有约束：

你优化的占据测度必须是某个策略在某个动力学系统下真实能产生的占据测度。

在连续时间系统里，这类约束可以写成 Liouville 方程。原文提到：

约束可以理解为 ODE 推前一个初值分布得到的 Liouville 方程，只不过 ODE simulator 天生满足动力学，优化约束就被隐式地满足了。

小白版解释：

如果你显式写测度优化，就要加一条“这张访问热力图必须符合系统运动规律”的约束。RL rollout 直接让系统自己跑，所以每条采样轨迹天然符合动力学。约束没有消失，只是被 simulator 自动满足了。

这也是为什么原文说 RL 是数值最优控制，而不是普通函数优化。

#14. Liouville 方程是什么？先把它当成“概率质量守恒”

Liouville 方程听起来很硬。先用一个水流比喻。

假设状态空间里有一团概率质量，代表系统可能处在哪些状态。系统动力学 $\dot x=f(x,u)$ 像一个流场，会把这团概率质量往前推。

Liouville 方程描述的是：

概率质量怎么随着动力学流动。

它类似连续性方程：质量不会凭空产生或消失，只会被流场搬运。

在 occupation measure 框架下，Liouville 约束保证：

你的占据测度、初始分布、终止分布之间必须和系统动力学一致。

原文后面写的 Bolza 最优控制问题：

\min_\theta \langle \ell,\mu_\theta\rangle + \langle g,\mu_{T,\theta}\rangle

约束：

\langle v,\mu_{T,\theta}-\mu_0\rangle = \langle L_fv,\mu_\theta\rangle

这其实就是弱形式的动力学约束。

不要被公式吓到。它在人话里是：

从初始分布出发，按照系统动力学流动，最后得到终止分布；中间经过的状态-动作访问记录，必须和这个流动过程匹配。

这里的 $v$ 是测试函数， $L_fv$ 是沿着动力学 $f$ 的导数，也叫 Lie derivative。

这又回到了前面的对偶配对：不直接逐点写微分方程，而是把它和测试函数配对，写成弱形式。

#15. Actor-Critic 为什么能看成 primal-dual？

原文说 Actor-Critic 来源于这个优化问题的对偶问题，对偶问题就是 HJB 不等式。

这部分很深，但可以用一个简单框架理解。

Primal 问题是原问题：

找一个策略，或者找一个占据测度，让累计奖励最大。

Dual 问题是对偶问题：

找一个值函数或势函数，给原问题提供上界或下界，并用这个界来指导优化。

在最优控制里，值函数满足 HJB 方程或 HJB 不等式。

HJB 可以理解为连续时间版本的 Bellman 方程。它描述：

一个状态的最优价值，必须和当前代价、动力学方向上的价值变化保持一致。

Actor-Critic 里：

Actor 是策略，也就是 primal 侧的对象；
Critic 是值函数，也就是 dual 侧的对象。

所以从这个角度看，Actor-Critic 不是一个随便拼出来的工程结构，而是很自然的 primal-dual 结构：

Actor 试图产生好的占据测度，Critic 试图估计值函数 / 对偶证书，帮助 Actor 判断哪些动作值得保留，哪些采样可以剪掉。

这也解释了为什么 Critic 可以降低方差。

如果没有 Critic，Actor 只能看完整轨迹回报，噪声很大。

有了 Critic，它可以估计“当前状态本来就值多少钱”，然后判断某个动作是不是比基准更好。

#16. Advantage 是什么？为什么原文说它是 HJB slack？

RL 里 Advantage 通常定义为：

A^\pi(s,a)=Q^\pi(s,a)-V^\pi(s)

人话解释：

在状态 $s$ 做动作 $a$ ，比这个状态下的平均水平好多少？

如果 $A>0$ ，说明这个动作比预期好，应该增加概率。

如果 $A<0$ ，说明这个动作比预期差，应该减少概率。

在连续时间最优控制 / HJB 语言里，会出现类似：

\ell + L_f v

其中：

$\ell$ ：当前代价；
$v$ ：值函数；
$L_fv$ ：沿着动力学走一步，值函数会怎么变。

这个量可以理解成：

当前动作导致的“即时代价 + 未来价值变化”离 HJB 最优条件还差多少。

这就是 slack，松弛量或残差。

如果某个地方 HJB 不等式很松，说明这里还有优化空间。

原文说 Advantage 就是 HJB slack，意思是：

Advantage 在 RL 语言里衡量动作相对值函数基准的好坏；HJB slack 在控制对偶语言里衡量当前控制离最优性条件的残差。它们扮演的角色非常接近。

这不是说两个公式在所有设定下逐字等价，而是说它们在 primal-dual 结构里的功能对应。

#17. GAE 为什么像给 residual 套 filter？

GAE，全称 Generalized Advantage Estimation，用来估计 advantage。

普通 TD error 是：

\delta_t = r_t + \gamma V(s_{t+1}) - V(s_t)

GAE 把多个时间尺度的 TD error 加权起来：

A_t^{\mathrm{GAE}}=\sum_{l=0}^{\infty}(\gamma\lambda)^l\delta_{t+l}

小白版理解：

单步 TD error 太短视，完整 Monte Carlo 回报又太吵。GAE 在这两者之间折中，用一个指数滤波器把未来几步的残差平滑起来。

原文说：dual residual 是全局约束，不能单点最小化，所以套个 filter。

意思是：

HJB / Bellman 残差不是某一个时间点孤立决定的，它沿着轨迹传播。GAE 用时间滤波的方式，把一串 residual 合成一个更稳定的 advantage 估计。

这也是为什么 $\lambda$ 控制 bias-variance tradeoff：

$\lambda$ 小，更像短视 TD，方差低但偏差大；
$\lambda$ 大，更像长回报，偏差低但方差大。

#18. PPO 的 KL、trust region、clipping 到底在干什么？

PPO 的目标不是让策略一步跳得很远，而是小心更新。

原因很简单：策略一变，数据分布也会变。如果一步改太大，旧数据就不可信了，训练会崩。

TRPO 的思路是加 trust region：

新策略不能离旧策略太远。

这个“远”常用 KL 散度衡量：

\mathrm{KL}(\pi_{\text{old}}\|\pi_\theta)

PPO 用 clipping 做近似。

它定义概率比：

r_t(\theta)=\frac{\pi_\theta(a_t|s_t)}{\pi_{\text{old}}(a_t|s_t)}

如果新策略让某个动作概率暴涨太多，clip 会截断收益。这样优化器就不会为了短期 advantage 把策略改得太猛。

原文把它解释成：

这些 trick 是为了让参数更新尽可能贴近连续的黎曼梯度流，并保证稳定。KL trust region 或 KL regulated proximal 可以理解成更稳定但更贵的更新方式，clipping 是便宜近似。

小白版：

理论上我们想沿着策略分布空间里最合理的方向小步走。精确走很贵，所以 PPO 用 clipping 做一个粗糙但好用的刹车。

#19. 为什么原文说 RL 是 single shooting 的特例？

这是原回答里很关键的一刀。

先讲 shooting method。

在 trajectory optimization 里，你要找一条轨迹。最简单的办法是：

猜一串控制输入；
从初始状态开始模拟；
一路 rollout 到终点；
看终点和总代价好不好；
修改控制输入，再试。

这叫 single shooting。

它的问题是：

所有东西都从初始点一路滚到最后。前面一点误差，后面可能被放大很多。优化很容易病态。

Multiple shooting 会把轨迹切成多段：

不只优化控制，还优化每一段的起点状态；
每一段局部 rollout；
在段与段之间加“接口约束”，要求前一段结尾和后一段开头对得上。

这有什么好处？

优化问题更局部，梯度传播距离更短，数值稳定性更好，也更容易并行。

原文说 RL 是 single shooting 的特例，是因为很多 RL 算法就是：

给定一个全局策略，从初始分布一路 rollout 出完整轨迹，然后用整段轨迹回报更新策略。

它没有显式把轨迹切段、加界面残差、做 multiple shooting。

所以在一些控制问题上，直接用 multiple shooting / MPC / trajectory optimization 可能比 PPO 这类 RL 高效得多。

#20. MPC：为什么“能在线优化，谁用离线策略”？

MPC 是 Model Predictive Control，也叫 receding horizon control。

它的流程是：

当前时刻观察状态 $x_t$ ；
往未来看 $H$ 步，解一个短时域最优控制问题；
得到一串动作 $(u_t,u_{t+1},\dots,u_{t+H})$ ；
只执行第一个动作 $u_t$ ；
下一刻重新观察状态，再解一次。

它不是离线学一个全局策略，而是在线不断重新规划。

这对很多机器人 / 控制问题很自然。因为现实环境会变化，模型会有误差，传感器会有新信息。与其提前学死一个策略，不如每一刻根据当前状态重新优化。

原文批评的是：

如果某类问题可以毫秒级在线优化，那为什么要花几个小时甚至几天离线训练一个全局策略？

当然，这不是说 MPC 永远比 RL 好。

MPC 也需要模型或 simulator，也需要在线算力，也可能在高维感知输入下很难。

但原文想强调：

不要默认“RL 离线训练一个策略再上线”就是控制问题的唯一现代解法。很多时候，在线寻优才是更自然的解法。

#21. “RL 和 sample-based MPC 就是一念之差”是什么意思？

Sample-based MPC 可以这么理解：

在当前状态下，采样很多条未来动作序列，用 simulator 跑一遍，看哪条最好，然后执行它的第一个动作。

这和 RL 的 rollout 很像。

区别在于：

RL 通常离线训练一个策略参数 $\theta$ ，以后直接用；
sample-based MPC 在线采样动作序列，每一步重新优化。

所以它们都在用采样和 simulator。

差别是优化对象：

RL 优化全局策略函数；
MPC 优化当前时刻附近的一段动作序列。

这就是“一念之差”。

如果问题低维、模型可快速仿真、实时算力足够，MPC 可能非常强。

如果问题高维、部分可观测、需要复杂语义先验、动作空间离散且长期结构复杂，RL / imitation / world model / planning 的组合可能更合适。

原文的火力主要对准那些明明适合在线优化，却硬要用 PPO 这类离线全局参数化方法的场景。

#22. 哪些问题适合 PPO 式 RL，哪些问题可能不适合？

原文后面补充说，它不是反对 PPO 作为技术选择。比如人形机器人打拳，PPO 可能仍然是合理选择。

为什么？

因为这类任务可能需要复杂全身协调、接触动力学、非线性策略，而且仿真中能大量采样。学一个全局策略上线，确实有工程价值。

但一些问题用 PPO 类方法可能就很别扭：

小车动态避障；
博弈交互；
视觉输入 manipulation；
需要实时适应的任务；
环境变化很快的任务。

这些场景可能更需要在线规划、MPC、TAMP、视觉 world model、局部 trajectory optimization，而不是纯离线全局策略。

原文真正反对的是“叙事垄断”：

一遇到 sequential decision making，就默认上 RL；一讲 control，就把传统方法当成过时手搓；一讲 learning，就忽视 optimization 和 planning 的成熟工具。

这确实是一个值得警惕的问题。

#23. 这篇回答里的“传统”不是贬义词

很多 ML 语境里，“传统方法”像一个贬义词。

但在 control / optimization 里，大量传统方法不是落后，而是非常成熟：

HJB：最优控制的动态规划方程；
PMP：Pontryagin 最大值原理；
MPC：在线滚动优化；
SQP / SNOPT：非线性规划求解；
shooting / collocation：轨迹优化离散化方法；
primal-dual：约束优化的基本结构；
Lyapunov：稳定性分析。

RL 的很多 trick，换一个数学语言，能和这些东西对上。

这不是为了说 RL 没有贡献，而是为了说：

如果能把 RL 放回 control / optimization 的大图景里，我们会更清楚什么时候该用它、什么时候不该用它、怎么改造它。

这对初学者尤其重要。否则很容易变成：今天学 PPO，明天学 SAC，后天学 GRPO，学了一堆算法名，但不知道它们背后的共同结构。

#24. 对 LLM 的启发：RL 是 learning 范式，还是 optimizer 技术？

原文最后把话题拉到 LLM。

现在 LLM 社区常说：RL 能让模型推理变强，GRPO / PPO 能提升数学、代码、对齐。

但原文会问：为什么一定要把它叫 learning 范式？

从另一个角度看，RL 是一种 optimizer：

给定一个可采样系统、一个 reward / verifier / preference model，通过试错和更新，让输出分布往高分区域移动。

这就自然延伸到 test-time optimization。

比如：

让一个 LLM 生成多个答案；
用 verifier 或 reward model 打分；
让多个模型互相批评、修改；
搜索一棵 reasoning tree；
最后选出一致性最高或验证通过的答案。

这和黑箱优化很像。

你不一定要更新模型参数。你可以在 test time 优化输出、优化 prompt、优化中间计划、优化工具调用序列。

这对 LLM Agent 很关键。

因为 Agent 的能力不只来自模型参数里的先验，也来自运行时搜索和在线寻优：

通用智能 = 大量先验知识 + 通用在线寻优。

这句话很有意思。

现在很多人把 scale 理解成参数更多、数据更多、训练更多。但还有另一种 scale：

同一个模型，在测试时用更好的搜索、验证、规划和反思机制，让它发挥出更强能力。

这就是 test-time compute / inference-time scaling / agentic search 的方向。

#25. 和你关心的 LLM Agent / 长轨迹 RL 怎么接上？

你最近关心 LLM Agent、长轨迹 RL、model-based RL、latent-space reasoning。这篇回答其实和这些方向很相关。

LLM Agent 的一条轨迹可以看成：

\tau=(\text{prompt},\text{thought}_1,\text{tool}_1,\text{obs}_1,\text{thought}_2,\text{tool}_2,\dots)

策略是 LLM 当前的生成分布。

reward 可能来自：

任务成功；
单元测试通过；
用户偏好；
verifier；
环境反馈；
long-horizon objective。

传统 RL 会想：训练一个全局策略 $\pi_\theta$ ，让它在这些长轨迹上拿高分。

但从原文视角看，这可能是非常低效的：

你在用一个全局参数化策略，离线拟合一个极其复杂的长轨迹控制问题。

长轨迹 Agent 的状态空间巨大，reward 稀疏，credit assignment 难，rollout 昂贵。直接 PPO / GRPO 当然会很吃力。

那更自然的方向可能是：

用 world model 或 latent model 压缩环境状态；
在 test time 做局部搜索，而不是完全依赖离线策略；
把长任务拆成 multiple shooting 风格的分段优化；
对中间计划、工具调用、子目标设置界面约束或 residual；
用 verifier / critic 做对偶下界或剪枝，而不是只做终局 reward；
把 RL 训练和在线规划结合起来。

换句话说，LLM Agent 可能不应该只问：

怎么用 RL 训练一个更强模型？

还应该问：

怎么设计一个能在线寻优的推理-控制系统？

这和原文最后说的“通用智能 = 大量先验信息 + 通用在线寻优”是同一个方向。

#26. 这篇回答哪些地方值得吸收，哪些地方要保留判断？

我觉得原回答最有价值的地方有三点。

第一，它把 RL 放回 control / optimization 的大框架里。这个视角很重要，尤其对机器人、连续控制、Agent 规划都有帮助。

第二，它强调 occupation measure 和 primal-dual 结构。这个比“状态、动作、奖励、策略”更底层，也更容易连接 HJB、MPC、trajectory optimization。

第三，它提醒我们，不要把离线训练全局策略当成默认答案。很多系统应该考虑在线优化、局部参数化、multiple shooting、sample-based MPC。

但也要注意，原文有些表达是故意很锋利的。

比如“RL 是叙事灾难”“RL 是低效特例”“DL/robotics 被 RL 忽悠瘸了”，这些判断有情绪和立场。它们适合激发讨论，但不能直接当成定理。

更稳妥的理解是：

RL 不是一个完全独立于 control / planning / optimization 的新大陆。它是这些传统问题在采样、函数逼近、黑箱 simulator、大规模数据和现代神经网络条件下的一类实现方式。

这个说法没有那么爽，但更准确。

#27. 如果只记一张表

原文概念	小白理解
对偶配对 $\langle f,\mu\rangle$	函数负责打分，分布负责告诉你哪里出现得多，配对就是平均分
分部积分 / 对偶转移	把难求的导数从一个对象搬到另一个更好处理的对象上
Stochastic relaxation	不直接找最优点，而是优化一个采样分布，让它更多落在好点附近
轨迹分布 $\mathbb P^\pi$	一个策略会产生各种可能轨迹及其概率
Occupation measure	轨迹在每个状态-动作位置上花了多少时间
$\max_\pi\langle r,\mu_\pi^\gamma\rangle$	找一个策略，让系统更多待在高奖励区域
Model-free	不显式写模型、不对模型求导，但仍然依赖 simulator 或真实系统采样
Liouville 约束	占据测度必须符合系统动力学，不能随便捏造
Actor-Critic	Actor 是 primal 策略，Critic 是 dual 值函数 / 对偶证书
Advantage	某个动作比当前状态基准好多少，可类比 HJB residual / slack
PPO clipping	防止策略一步改太猛，是 KL trust region 的便宜近似
Single shooting	从初始点一路 rollout 到底，再整体优化
Multiple shooting	把轨迹切段优化，用接口约束拼起来，更稳定
MPC	每一步在线解短时域最优控制，只执行第一步，然后重新规划
Test-time optimization	不只训练模型参数，也在推理时搜索、验证、优化输出过程

#28. 最后总结

V777 那篇回答的核心，不是简单骂 RL，而是在要求换一套叙事。

传统 RL 叙事说：

agent 通过奖励学习策略。

占据测度 / 最优控制叙事说：

策略诱导状态-动作占据测度，reward 与占据测度配对得到目标；优化策略就是在动力学约束下移动这张占据测度，让它更多落到高奖励区域。

黑箱优化叙事说：

如果你不显式写模型、不显式求导，只通过 rollout 评估策略好坏，那么你其实是在用黑箱优化求一个数值最优控制问题。

PPO 叙事说：

用一个全局参数化策略产生 rollout，用 advantage 估计改进方向，用 KL / clipping 限制更新步长，用 critic 降低方差。

Control 叙事会继续追问：

为什么一定要全局参数化？为什么一定要离线？为什么不局部优化？为什么不 multiple shooting？为什么不 MPC？为什么不把 critic 当成对偶对象来设计？

这就是原文真正有价值的地方。

它逼我们从“学算法名”退一步，重新看 RL 的数学位置：

RL 不是魔法。它是最优控制、概率测度、黑箱优化、对偶理论、采样估计和函数逼近缠在一起的一种工程化范式。

学 RL 当然有用。但如果只学 PPO、SAC、GRPO 的表层 recipe，很容易变成“回字的四种写法”。

更好的学习路径可能是：

先理解最优控制和动态规划；
再理解占据测度和 primal-dual；
再理解采样、黑箱优化、策略梯度；
最后回头看 PPO、Actor-Critic、GAE、KL clipping。

这样看，很多散乱 trick 会重新变成一套系统。

而对 LLM Agent 来说，最重要的启发是：

不要只问如何离线训练一个更强策略。还要问如何在测试时持续搜索、规划、验证和局部优化。

也许未来的强 Agent，不只是“更大的先验模型”，而是“强先验模型 + 强在线寻优系统”。

这也是这篇回答最值得带走的一句话：

RL 与其说是一种神秘的 learning 范式，不如说是一类 optimizer 技术。它真正应该连接的，不只是深度学习，还有 control、planning、optimization 和 test-time search。