#ExpRL:把参考答案从 SFT 样本变成 RL 探索脚手架

论文:ExpRL: Exploratory RL for LLM Mid-Training

作者:Violet Xiang, Amrith Setlur, Chase Blagden, Nick Haber, Aviral Kumar

机构:Stanford University, Carnegie Mellon University, OpenAI

arXiv:<https://arxiv.org/abs/2606.17024>

代码:<https://github.com/violetxi/ExpRL>

#0. 一句话 thesis

这篇论文想解决的问题很直接:当一个基础模型在难题上几乎采不到正确轨迹时,直接做 sparse reward RL/GRPO 往往没有足够学习信号;但如果我们手里有很多人类参考解答,不一定要拿它们做 SFT 模仿,而可以把它们变成“奖励脚手架”,用 LLM judge 给模型自己的 on-policy 推理轨迹打 dense reward,从而提前扩大模型能探索到的有效解法覆盖。

用更人话说:

  • 传统 SFT:把参考答案当作“标准作文”,让模型照着写。
  • sparse RL:只看最后答案对不对,对了给 1,错了给 0。
  • ExpRL:参考答案不给模型看,也不让模型照抄;只给裁判看,让裁判判断模型自己的尝试“走到了哪一步”“有没有朝正确方向推进”。

所以 ExpRL 的关键不是“参考解答更强”,而是:参考解答被重新定位成 RL 探索阶段的 reward scaffold,而不是 imitation target。

Figure 1:ExpRL 总览。参考解答不暴露给 policy,而是交给 LLM judge,用来给 on-policy rollout 的部分进展打分。
Figure 1:ExpRL 方法总览

#1. 为什么这篇论文重要?

最近 LLM reasoning 的主流后训练路径大致是:

  1. 先有一个 base / instruct model。
  2. 用 SFT、long-CoT 数据、探索数据或 mid-training 提升推理行为。
  3. 再用可验证奖励做 RL,比如数学题 final answer 对不对,代码题 unit test 过不过。

这条路线的问题是:RL 不是从零创造能力,它非常依赖初始策略分布里已经有多少“可被奖励捕获”的轨迹。

如果模型在某类难题上 64 次采样都答不对,那么 final-answer reward 基本就是一串 0。此时 GRPO/PPO 再优雅,也很难知道:

  • 哪个中间分解是有用的?
  • 哪个 case split 虽然最后失败但方向正确?
  • 哪次自我纠错其实把模型拉回了正轨?
  • 哪条轨迹离最终解法只差最后一步?

ExpRL 站在一个很关键的位置:它把问题从“如何设计更好的最终奖励”转成“如何在 sparse RL 之前,把模型的探索覆盖先推到一个可学习区域”。

这和近期很多现象是连在一起的:

  • RLVR 成功依赖 base model 已经能采到少量正确样本。
  • GRPO 类方法减少 critic 负担,但仍逃不开稀疏奖励下的 exploration bottleneck。
  • SFT 能注入轨迹,但 off-policy imitation 可能让模型学到不自然分布,甚至削弱原有推理能力。
  • 长轨迹 Agent RL 更严重:最终成败可能来自很早的规划、检索、工具调用或分支选择,纯终局奖励更稀疏。

因此这篇论文的价值在于提出了一个可复用范式:用 reference-conditioned judge 为 on-policy trajectories 提供 dense feedback。

#2. 核心问题:coverage,而不是单点正确率

论文反复强调一个词:coverage over productive reasoning paths

这里的 coverage 不是数据覆盖率,而是策略分布覆盖率。它指的是:模型当前采样分布里,是否给“可能通向正确解法的轨迹”分配了足够概率质量。

可以这样理解:

概念人话解释对 RL 的意义
pass@1随机采一次就答对的概率衡量单次可靠性
pass@k采 k 次里至少一次答对的概率衡量策略分布里有没有正确轨迹
coverage模型是否覆盖了足够多有效解法路径决定后续 sparse RL 有没有东西可强化
mid-trainingsparse RL 前的中间训练阶段先把模型推到“能探索”的区域

为什么 pass@k 很重要?

因为如果 pass@1 不高但 pass@k 提升,说明模型不是每次都稳,但它的采样空间里已经出现了更多可行路径。对于后续 RL 来说,这非常关键:只要模型偶尔能采到有价值轨迹,final-answer reward 才开始有信号。

这也是 ExpRL 和普通 SFT 的区别:SFT 更像把模型推向某些标准答案轨迹;ExpRL 更像改变模型的探索分布,让它自己更容易采到有希望的路径。

#3. 方法:参考答案只给裁判,不给选手

ExpRL 的设定是:有一个 mid-training 数据集

D_mid = {(x_i, y_i*)}

其中:

  • x_i 是问题。
  • y_i* 是人类写的 step-by-step 参考解答。
  • policy πθ 只看到原始问题 x_i
  • LLM judge 同时看到问题、policy 生成的解答 y、参考解答 y_i*

关键点:policy 不看参考解答。

这使 ExpRL 避免了两种常见问题:

  1. SFT 的 off-policy mismatch:人类参考解法可能和模型自然推理分布差很远,硬模仿会扰动模型。
  2. oracle prefix / hint 泄露:如果训练时给模型看参考前缀,模型可能学的是依赖提示,而不是自己探索。

ExpRL 的流程是:

  1. policy 从原始问题 x 采样多个 rollout。
  2. LLM judge 对每个 rollout 和参考解答做比较。
  3. judge 给出 1–5 分,再归一化到 [0,1]
  4. 用这个 dense reward 做 on-policy RL。
  5. 得到一个更适合后续 sparse RL 的初始化。

论文里有两个主要变体。

#3.1 ExpRL-Outcome:给完整轨迹一个 dense outcome 分

普通 sparse reward 是:

  • 答案对:1
  • 答案错:0

ExpRL-Outcome 则是:即使最终答案错了,也让 judge 判断这条完整推理轨迹和参考解法有多少有效重合。

比如:

  • 找到了正确变量替换,但后面算错了:可能给 0.5。
  • 做了正确 case split,但漏了一个 case:可能给 0.6。
  • 完全乱猜:接近 0。
  • 走完正确证明:接近 1。

它解决的是“错解之间没有区别”的问题。

#3.2 ExpRL-Process:给中间 prefix 也打分

Outcome 级 dense reward 仍然有一个问题:它只给完整输出一个分数,不能告诉模型是哪一步贡献了进展。

所以 ExpRL-Process 会把 rollout 切成多个 prefix。论文里主要用模型自然生成的 ### delimiter 来切分 reasoning step,然后对每个 prefix 打分:

score_t = s(x, y_≤t, y*)

接着把 prefix 分数变成 segment-level advantage。核心直觉是:

  • 如果某一步让 prefix 更接近参考解法,它应该拿正 advantage。
  • 如果某一步让推理偏离正确路径,它应该拿负 advantage。
  • 不奖励“看起来长但没有推进”的内容。

这比 outcome reward 更接近长轨迹 credit assignment。

不过论文也承认,这里有工程细节:prefix 切分、长度裁剪、reward normalization 都会影响稳定性。附录里专门分析了 process reward normalization 和 delimiter collapse。

#4. ExpRL 和 SFT / GRPO / self-distillation 的区别

可以用一张表概括:

方法参考解答怎么用policy 生成是否 on-policy学习信号密度主要风险
SFT当作目标轨迹模仿token-level denseoff-policy,可能破坏模型自然推理分布
sparse GRPO不用参考解答,只看最终答案极稀疏难题上大多 reward=0,探索不足
self-distillation用参考条件下的 teacher 产生监督部分缓解token-levelteacher 分布可能离 student 太远
ExpRL-Outcome给 judge 作评分参照rollout-level densejudge 偏差、参考质量依赖
ExpRL-Process给 judge 作 prefix 评分参照prefix/segment-level dense切分、长度、校准更复杂

这篇论文最有意思的判断是:reference solution 不一定适合被模仿,但很适合被用来验证。

原因是现代 LLM 经常存在 verification-generation gap:让它从零解一道难题很难,但让它对照参考解答判断某个尝试有没有部分进展,相对容易。

这和人类学习也很像:老师不一定要把完整答案塞给学生背,而是可以拿标准解法作为 rubric,评价学生自己的草稿哪里对、哪里偏、哪里值得继续。

#5. 实验设置:先做 RL priming,再做 sparse RL

论文的实验是两阶段:

#Stage-I:RL priming / mid-training

  • policy:Qwen3-4B-Instruct-2507
  • judge:主实验用同一个 Qwen3-4B-Instruct 的拷贝。
  • 数据:来自 InT 和 POPE 的 hard question + reference answer pairs。
  • 选择难题:base model 在 64 次独立采样、每次 32k token budget 下都解不出来的问题。
  • 训练:ExpRL stage 训练 230 optimization steps。
  • 采样:每个 prompt 采 G=10 个 rollout,temperature 0.8,最大生成长度 16,384 tokens。

#Stage-II:downstream sparse-reward RL

  • 从不同 Stage-I 初始化出发。
  • 全部使用相同的 sparse final-answer reward。
  • 训练 500 optimization steps。
  • 评测:HMMT Nov 2025、IMO-AnswerBench、AIME 2025、AIME 2026。
  • 每题采样 128 个 response 计算指标。

这个实验设计的关键是:Stage-II 的 RL 设置不变,只改变 Stage-I 初始化。这样可以回答:ExpRL 是不是给后续 sparse RL 提供了更好的 starting point?

#6. 主结果:ExpRL 让后续 sparse RL 更强

主结果在 Table 1:经过 Stage-II sparse-reward RL 后,ExpRL 初始化整体优于 SFT、sparse GRPO 和 self-distillation。

关键数字:

Stage-I 初始化AIME25AIME26HMMTIMO Answer
Qwen3-4B-Instruct46.4651.4040.6031.37
SFT26.6230.2620.0921.80
GRPO55.9958.7542.9135.28
Self-Distillation55.5958.4146.0835.18
ExpRL-Outcome59.0761.7449.1137.85
ExpRL-Process58.0863.4148.1335.73

几个观察:

  1. SFT 非常差。 这支持论文关于 off-policy imitation 的担忧:人类参考解法不一定适合直接模仿。
  2. GRPO 有提升,但不如 ExpRL。 sparse RL 可以强化已有正确轨迹,但在 hard problems 上探索还是受限。
  3. ExpRL-Outcome 和 ExpRL-Process 都有效。 Outcome 在多个指标上最强,Process 在 AIME26 上最好。
  4. 提升不是只发生在 Stage-I reward 上。 因为这些分数是 Stage-II sparse RL 后的 held-out benchmark 表现。
Figure 2:主结果表。ExpRL 作为 Stage-I 初始化后,再做相同 sparse RL,整体优于 SFT、GRPO 和 self-distillation。
Figure 2:主结果表

#7. ExpRL 在 Stage-I 后已经改善探索分布

论文还看了 Stage-I 结束、还没跑 downstream RL 时的 pass@1 和 pass@16。结果显示 ExpRL 本身已经让模型变强,尤其在 AIME26 和 HMMT 上明显。

Stage-I 后的 Table 2 里:

  • AIME26 pass@1:base 51.45,ExpRL-Outcome 57.45,ExpRL-Process 57.51。
  • HMMT pass@1:base 40.60,ExpRL-Outcome 44.19,ExpRL-Process 45.24。
  • HMMT pass@16:base 68.43,ExpRL-Process 71.48。

这支持一个很重要的解释:ExpRL 不是只让模型“更会讨好 judge”,而是确实改变了采样分布,让模型更容易采到可行解。

Figure 3 进一步展示训练动态:

  • sparse GRPO 的 token-level entropy 下降更快,更像 mode-seeking。
  • ExpRL 和 self-distillation 保持更高 entropy。
  • ExpRL-Process 更快减少 unsolvable prompts。
  • ExpRL-Process 的 response length 会增长,说明过程奖励可能鼓励更长推理,但也需要长度控制。
Figure 3:Stage-I 训练动态。ExpRL-Process 更快解锁原本不可解的 prompt,同时保持更高 entropy,但也带来长度增长问题。
Figure 3:Stage-I 训练动态

#8. 模型到底学到了什么?更多搜索型 reasoning behavior

论文不只看分数,还用一个 annotation rubric 分析模型推理行为变化。

他们关注的行为包括:

  • verification:推导完后回代验证。
  • self-correction:明确修正前面的错误。
  • backtracking:回到某个分叉点尝试另一条路。
  • exploration:提出不同策略。
  • restart:放弃已有路线重新开始。
  • structured steps:显式分步骤。

Figure 5 显示,ExpRL 相对 base 增加了多种 search-oriented behaviors,尤其是 verification、self-correction、backtracking 等。

这很重要,因为它说明 ExpRL 不只是提升 final correctness,而是让模型更倾向于产生“可搜索、可修正、可继续推进”的推理轨迹。

不过这里也要谨慎:self-distillation 也能增加部分搜索行为,但它的最终效果不如 ExpRL。因此论文的解释是:有搜索行为还不够,还要有 problem-specific productive path coverage。

换句话说,会自我纠错是一种 primitive skill;但在具体难题上知道往哪里纠错、怎么组合技巧,才是 coverage。

Figure 4:行为变化。ExpRL 增加了 verification、self-correction、backtracking 等搜索型推理行为。
Figure 4:ExpRL 训练后的 reasoning behavior 变化

#9. LLM judge 可靠吗?reference 很关键,但 judge 也有门槛

ExpRL 的一大潜在质疑是:LLM judge 会不会只是在凭感觉打分?reference solution 真的有用吗?

论文做了 calibration stress test:固定 sampled rollouts,改变 judge 条件:

  1. 给正确 problem-matched reference。
  2. 不给 reference。
  3. 给错误 reference。

并衡量 misplacement rate:

  • false positive:错解被打高分。
  • false negative:对解被打低分。
  • 两者平均越低越好。

结果:

  • 在 Math、SciKnow-MCQ、SciKnow-OE 上,4B/8B/14B judge 都是 correct reference 最好。
  • wrong reference 会明显破坏判断。
  • 0.6B judge 不稳定,说明 judge 不能太弱。
  • 在 coding 上,reference 的作用不明显,因为 execution / functional correctness 本身已经很强。

这给 ExpRL 的适用边界画得比较清楚:

  • 对数学、科学问答这类“中间推理路径可比较”的任务,reference-conditioned judge 有价值。
  • 对代码这类能直接执行验证的任务,reference scaffold 不一定比环境 reward 更强。
  • judge 不必和 policy 一样大,但必须达到基本验证能力。

Figure 11 也说明:

  • Outcome reward 加 reference 后,正确/错误答案的 score 分布区分更明显。
  • Process reward 更噪,但总体能跟随 downstream success trajectory。
Figure 5:judge 校准。reference-conditioned judge 比 no-reference judge 更能区分正确/错误轨迹;process reward 更噪但仍跟随成功趋势。
Figure 5:LLM judge score calibration

#10. 混合领域实验:数学之外也能用,但代码不一定最适合

论文还做了一个更广的 mixed-domain Stage-I 实验:

  • policy:Qwen3-8B。
  • judge:Qwen3-4B-Instruct。
  • 数据:4001 个 reference-solution examples。
  • 领域:math、science QA、coding。

数据构成:

数据集领域数量占比
InTMath44011.00%
POPEMath1,07626.89%
SciKnow-PhysicsScience47411.85%
SciKnow-AllScience1,00024.99%
LCB v6Coding1,01125.27%
Total-4,001100.00%

结果显示:ExpRL-Outcome 改善了 8B base policy 在每个 pass@1 evaluation 上的表现,并在 Math-Aggregate 和 STEM-Aggregate 上最好。

但 coding 是例外:ExpRL 对 LiveCodeBench 有提升,但 sparse GRPO 更强。论文解释也合理:代码任务有 execution reward,很多正确实现和参考代码差异很大,reference scaffold 反而不是最自然的信号。

这对 Agent RL 很有启发:如果环境能给强反馈,就直接用环境;如果环境反馈稀疏、不可微、难以局部归因,reference scaffold 或 judge scaffold 才更有价值。

#11. 和最近 RL 方法的关系

可以把 ExpRL 放在一个更大的谱系里看。

#11.1 和 GRPO / PPO 的关系

ExpRL 不是要替代 GRPO 或 PPO,而是改变它们开始训练前的初始化。

  • Stage-I:用 reference-guided dense reward 做 RL priming。
  • Stage-II:仍然可以用 sparse reward GRPO/PPO。

这说明 ExpRL 更像一个 RL 前置探索扩展器,不是完整后训练 pipeline 的终点。

在实现上:

  • ExpRL-Outcome 使用 GRPO-style normalized reward update。
  • ExpRL-Process 使用 REINFORCE-style token/segment advantages,不做 group normalization。

因此它和前面讨论的 PPO/GRPO 系列并不是竞争关系,而是补充关系:先用 ExpRL 把 coverage 做起来,再用可验证 sparse RL 放大最终正确性。

#11.2 和 SFT 的关系

ExpRL 对 SFT 的批评很明确:参考答案分布可能离模型自己的推理分布太远。

如果模型本来不会某种高阶解法,直接 SFT 会让它在 token 层模仿一个 off-policy trajectory,但不一定学会如何从自己的状态自然走到那里。更糟糕的是,SFT 在主实验里明显拉低了表现。

这不是说 SFT 没用,而是说:对于 hard reasoning mid-training,reference solution 更适合做 verifier/rubric,而不一定适合做 imitation target。

#11.3 和 POPE / oracle prefix 的关系

POPE 这类方法会在 downstream RL 中暴露 privileged prefix,引导模型探索 hard problems。

ExpRL 的区别是:

  • 不在 rollout 时给 oracle prefix。
  • reference 只在 mid-training reward construction 阶段使用。
  • policy 始终从原始 prompt 自己采样。

论文也说两者原则上可以结合:ExpRL 做 priming,POPE 类方法做后续 prefix-guided exploration。

#11.4 和长轨迹 Agent RL 的关系

虽然论文主要做数学推理,但它对 Agent RL 的启发很直接。

长轨迹 Agent 的 reward 问题更严重:

  • 任务可能几十步后才成功或失败。
  • 工具调用、搜索、规划、回滚都可能影响最终结果。
  • 只有最终 reward 时,credit assignment 极难。
  • 直接模仿专家轨迹又容易 off-policy,因为 Agent 运行环境动态变化,专家路径未必是当前 policy 能自然到达的路径。

ExpRL 给出一种中间路线:

  1. 收集专家/人类/强模型完成任务的 reference trajectory 或 solution sketch。
  2. 不让当前 policy 直接模仿它。
  3. 让 judge 根据 reference 判断当前 policy 的 on-policy trajectory 是否实现了关键子目标、是否做了有效检索、是否完成了必要验证。
  4. 用 dense reward 或 process reward 更新当前 policy。

这非常接近长轨迹 Agent 所需要的“分阶段 credit assignment”。

#12. 我怎么看这篇论文

我觉得这篇论文最值得记住的不是某个具体数字,而是一个范式转变:

Reference data 不只有“拿来模仿”这一种用法。它还可以被用来构造奖励、rubric、judge scaffold,从而服务 on-policy exploration。

这件事对 LLM 后训练很关键,因为越来越多任务处在一个尴尬区间:

  • 有人类解答或专家轨迹。
  • 但直接 imitation 会带来 off-policy mismatch。
  • 最终奖励又太稀疏。
  • 模型需要先学会探索到有希望的区域。

ExpRL 正好切进这个区间。

它背后的判断和用户最近关注的几条线也很一致:

  • 长轨迹 RL 不只是优化算法问题,而是状态覆盖和探索分布问题。
  • mid-training / continual pretraining / RL priming 可能比直接在超长轨迹上做终局 RL 更现实。
  • model-based 或 latent-state 方法若要用于 Agent,也需要类似的“中间状态可评价”机制。
  • 参考轨迹的价值不一定是 token-level imitation,而是把隐含的任务结构变成可学习 reward。

如果往 Agent 方向延伸,我会关注几个问题:

  1. reference trajectory 怎么抽象成 rubric? 不能只比较文本相似度,而要比较子目标达成、信息获取、状态转换。
  2. process reward 如何避免奖励 hacking? Agent 可能学会写看似合理的中间步骤,而没有真实推进环境状态。
  3. judge 是否需要访问环境状态? 对工具使用任务,仅看文本轨迹可能不够,需要结合 observation、tool result、文件 diff、测试结果。
  4. ExpRL 能否和 world model / latent reasoning 结合? reference 可以帮助 judge 识别 latent subgoal,而不是只识别表面步骤。
  5. 如何构造大规模 reference 数据? 人类专家轨迹贵,强模型自生成轨迹可能有偏,环境 replay 或失败轨迹标注可能更关键。

#13. 局限与风险

论文自己也提到了一些局限,我觉得主要有五点。

#13.1 依赖 reference solution

ExpRL 需要问题匹配的参考解答。没有 reference,就很难构造这种 scaffold。

这限制了它在开放式任务中的使用。比如科研探索、长程项目管理、开放世界 Agent,很难说存在唯一参考路径。

#13.2 judge 质量决定 reward 质量

实验显示 0.6B judge 不稳定,wrong reference 会让 reward 失真。

这说明 ExpRL 不是“随便找个 LLM 打分就行”。它需要:

  • reference 正确且匹配问题。
  • judge 足够会验证。
  • rubric 明确约束 judge 不要脑补缺失步骤。

#13.3 process reward 更接近 credit assignment,但更难工程化

Process reward 听起来很美,但 prefix 切分、长度增长、delimiter collapse、normalization 都是问题。

尤其长轨迹任务里,什么叫一个“step”并不天然清楚。数学里可以用 ###,Agent 里可能要按 tool call、state transition、subgoal boundary 来切。

#13.4 对代码任务,reference scaffold 未必胜过环境反馈

LiveCodeBench 的结果提醒我们:如果环境已经能提供强验证信号,比如执行测试,reference-conditioned judge 未必是最优。

所以 ExpRL 更适合“最终反馈稀疏、但中间过程可由参考解答辅助判断”的任务。

#13.5 可能学到“像参考解法”的局部模式,而不是真正探索

虽然 ExpRL 不直接给 policy 看参考答案,但 reward 仍然来自和参考解法的 alignment。若 reference 解法单一,模型可能被奖励牵引到某些路径风格,而不是发现全新解法。

这需要未来通过多参考、多样化 rubric、环境验证和反事实 judge 来缓解。

#14. 最后总结

ExpRL 可以被概括为一句话:

用参考解答帮助裁判打 dense reward,而不是让模型模仿参考解答。

它解决的是 sparse RL 前的 exploration coverage bottleneck:当 base model 在难题上采不到正确轨迹时,单纯 final-answer reward 太稀疏;SFT 又可能 off-policy。ExpRL 通过 reference-guided judge 给 on-policy rollout 的部分进展打分,让模型在 mid-training 阶段先学会探索到更有希望的解法区域。

对我来说,这篇论文最值得继续追的是它对长轨迹 Agent RL 的启发:未来 Agent 后训练可能不应该只问“最终任务成了吗”,也不应该只做专家轨迹模仿,而应该把专家轨迹、参考解、环境 replay 转化成 state-aware / process-aware / reference-conditioned reward scaffold,让 on-policy Agent 在自己的轨迹分布里学会更有效地探索。

如果把这件事做成一条研究线,ExpRL 可以看作一个很清楚的起点:从 sparse outcome RL 走向 reference-guided exploratory RL。