论文精读 2026-06-18 ★★★★★ reasoning-sft long-cot post-training generalization rlvr safety

#Rethinking Generalization in Reasoning SFT：SFT 真的只会记忆吗？

论文：Rethinking Generalization in Reasoning SFT: A Conditional Analysis on Optimization, Data, and Model Capability

作者：Qihan Ren, Peng Wang, Ruikun Cai, Shuai Shao, Dadi Guo, Yuejin Xie, Yafu Li, Quanshi Zhang, Xia Hu, Jing Shao, Dongrui Liu

链接：arXiv:2604.06628

代码/数据/模型入口：论文首页给出了 GitHub、HuggingFace 与 ModelScope collection。

这篇文章讨论的是一个最近后训练领域非常核心的问题：reasoning SFT 到底能不能泛化？

过去一段时间，一个很流行的说法是：

SFT memorizes, RL generalizes.
SFT 只是模仿/记忆，RL 才真正学会泛化。

这个说法很有吸引力，因为它和 RLVR / reasoning model 的成功叙事高度一致：如果 SFT 只是把 teacher 的轨迹背下来，那我们当然要转向 RL，让模型自己探索、自己发现策略。但这篇论文想指出：这个判断可能太粗了。至少在 long-CoT reasoning SFT 这个 setting 下，SFT 不是简单地“不会泛化”，而是：

reasoning SFT 的泛化是一种条件性现象：它取决于训练是否充分、数据是否高质量且有合适结构、以及 base model 是否有足够能力吸收这些推理程序。

更重要的是，作者没有把结论写成“SFT 也很强，所以不需要 RL”。它真正给出的结论更微妙：

短训练看到的“不泛化”，可能只是 under-optimization artifact；
long-CoT 数据里真正泛化的，可能不是数学知识本身，而是 decomposition、backtracking、verification 这类可迁移的推理程序；
模型太弱时，它可能只学到“啰嗦地想很久”的表面形式，而没有学到推理程序；
reasoning SFT 的泛化是 asymmetric 的：推理能力提升的同时，安全拒答能力会下降。

这篇文章和我们最近讨论的 think-SFT、长 CoT、温度、重复思考、RLVR 等问题是连在一起的：它把“模型学到的到底是 thought 的表面分布，还是可迁移的内部程序”这个问题放到了实验中心。

Figure 1：论文的核心框架——reasoning SFT 泛化由优化动态、训练数据、模型能力共同决定 — Figure 1：论文核心框架

#1. 这篇论文真正想反驳什么？

它反驳的不是“RL 有用”，而是反驳一个过于二元的叙事：

SFT = memorization；RL = generalization。

这个叙事的问题在于，很多实验里所谓“SFT 不泛化”，其实混杂了很多因素：

训练轮数很短，只看了早期 checkpoint；
数据质量不稳定，response 可能短、缺步骤、错误或风格混乱；
base model 太弱，根本吸收不了 long-CoT 里的抽象程序；
从 instruction-tuned model 出发，alignment、preference、能力保留等因素缠在一起；
只看 retention，不区分“保留原能力”和“获得新泛化能力”。

作者的做法是把 setting 尽量控制干净：从 pretrained base model 出发，而不是从 instruction-tuned model 出发；用数学 long-CoT 作为训练数据，因为数学答案容易验证；再系统改变三个因素：

Optimization dynamics：训练够不够、是不是只看早期；
Training data：数据质量、是否含 long-CoT、是否含可迁移程序；
Model capability：base model 是否足够强，能不能把长推理轨迹内化成能力。

所以这篇文章的中心问题不是“reasoning SFT 能不能泛化”，而是：

在什么条件下，reasoning SFT 会泛化？它泛化的是什么？代价是什么？

#2. 实验设置：用数学 long-CoT 去测跨域泛化

论文默认训练集叫 Math-CoT-20k：

20,480 条数学推理样本；
query 来自 OpenR1-Math-220k；
response 由 Qwen3-32B thinking mode 生成；
每条包含 <think>...</think> 推理过程，以及最终 step-by-step summary 和答案；
用 math-verify 只保留答案正确的 response；
最大 response length 为 16,384 tokens。

默认训练方式是很普通的 SFT：对 response tokens 做 negative log-likelihood。默认训练超参包括：

base model：Qwen3-14B-Base、Qwen3-8B-Base，也包括 InternLM2.5-20B-Base、Qwen2.5 系列等；
optimizer：AdamW；
learning rate：5e-5；
batch size：256；
epochs：8；
每 epoch 80 个 gradient steps；
训练在 8 张 H200 上完成。

评测覆盖四类能力：

类型	Benchmark	看什么
In-domain reasoning	MATH500, AIME24	数学推理，和训练域一致
OOD reasoning	LiveCodeBench v2, GPQA-Diamond, MMLU-Pro	代码、科学、多领域推理
General capabilities	IFEval, AlpacaEval 2.0, HaluEval, TruthfulQA	指令跟随、开放回答质量、幻觉/真实度
Safety	HEx-PHI	harmful instruction 下的攻击成功率

评测默认使用 temperature=0.6、最大生成长度 32,768。这个细节也挺有意思：作者没有用 greedy decoding，而是沿用了 reasoning model 常见的非零温度评估设置。

#3. 第一条主线：短训练看到“不泛化”，可能只是还没训够

作者先复现已有工作中的现象：只用 Math-CoT-20k 训练 1 epoch 后，数学能力明显提高，但 OOD reasoning 和 general capability 的收益有限，甚至有些 benchmark 下降。

这就是过去“SFT 不泛化”的典型证据：

MATH500、AIME24 提升很大；
LCB、GPQA 这类跨域 reasoning 提升有限；
IFEval、HaluEval 等 general capability 甚至下降。

但作者接着做了关键实验：不要只看 1 epoch，继续训练到 8 epochs，并观察完整训练轨迹。

结果出现了一个很重要的模式：dip-and-recovery。

Figure 2：短训练会复现“SFT 不泛化”的现象，但更长训练显示出 dip-and-recovery 动态 — Figure 2：短训练复现与长训练动态

人话讲，这个曲线像这样：

训练早期，模型先学会“我要输出很长的 thinking trace”；
但此时它还没有真正掌握 decomposition、backtracking、self-evaluation 等细粒度推理程序；
所以输出变长，性能反而下降，尤其是 OOD 和指令跟随任务；
随着训练继续，模型逐渐学到更可迁移的程序，输出也从“长而散”变成“短而准”；
最后很多 OOD benchmark 恢复并超过 base model。

论文里有一句非常关键的解释：早期 long-CoT SFT 中，模型先学到最显眼的表面模式，即“产生很长的 thinking-like traces”；更细的 reasoning pattern 要更久才学会。

这对理解 think-SFT 很重要。我们经常看到一个模型 SFT 后变得很爱想、很长、甚至循环，并不一定说明它已经学会了深层推理；它可能只是学到了 long-CoT 的表面分布。作者用 response length 作为一个粗糙但有用的诊断信号：

如果 checkpoint 的 response length 还在明显下降，那么它可能还没充分优化；它可能还停在“模仿长思考”的阶段。

这也和你之前问的 temperature=0 下重复思考/死循环现象有内在联系：如果模型只学到了“继续想、再检查、再反思”的表面动作，而没有稳定学到何时收束，那么 greedy decoding 很容易把这种高概率 thought pattern 放大成循环。

#4. 为什么更长训练有用：重复看同一批长 CoT，比只扫一遍更多数据更有效

作者还问了一个非常实际的问题：long-CoT SFT 到底是因为“看了更多不同样本”才有用，还是因为“对同一批样本重复暴露多次”才有用？

他们固定总训练步数为 640，比较三种设置：

设置	数据量	batch size	epoch	含义
Setting 1	20k	256	8	默认设置，数据多且重复训练
Setting 2	2.5k	32	8	小数据，多次重复暴露
Setting 3	20k	32	1	大数据，只看一遍

关键比较是 Setting 2 vs Setting 3：训练步数一样，但一个是小数据重复 8 遍，一个是大数据只看 1 遍。

结果是：重复暴露更有效。Setting 2 在 AIME24、LCB、GPQA、MMLU-Pro、IFEval、AlpacaEval 等任务上明显超过 Setting 3。

这说明 long-CoT 不是普通短答案标签。它的结构很长、噪声更多、模式更复杂，模型需要多次接触才能把里面的程序压进参数里。只让模型“扫一遍”大量 long-CoT，可能学不到深层结构。

这和一个直觉相符：

短答案 SFT 更像学映射；
long-CoT SFT 更像学过程；
过程学习需要重复对齐，不只是覆盖更多样本。

当然，数据多样性仍然有用。Setting 1 比 Setting 2 更好，说明“多样数据 + 重复暴露”最好。论文的结论不是“小数据重复就够了”，而是：在 long-CoT SFT 里，under-optimization 可能比 over-optimization 更常见。

#5. 过拟合什么时候出现？高 LR、无衰减、长训练一起上才明显

既然作者强调“训得更久”，自然要回答一个反驳：那会不会只是过拟合？

他们做了 overfitting stress test，对 Qwen3-14B-Base + Math-CoT-20k 比较四种训练强度：

默认：LR 5e-5，8 epochs，cosine decay；
LR 5e-5，16 epochs，cosine decay；
LR 5e-5，16 epochs，constant LR；
LR 1e-4，16 epochs，constant LR。

Figure 5：过拟合压力测试显示，明显过拟合主要出现在高学习率、无 LR decay、长训练叠加时 — Figure 5：过拟合压力测试

结果是：

16 epochs + cosine decay 通常还能保持稳定或继续提升；
constant LR 开始出现部分 OOD 后期下降；
高 LR + constant LR + 16 epochs 最明显：OOD 广泛下降，甚至 in-domain math 也下降；
同时 response length 又开始反弹。

这给了一个实用判断：如果 long-CoT SFT 训练中出现 性能广泛下降 + response length 重新变长，可能是在进入过拟合/退化区间。但在默认设置下，作者观察到的主要问题不是过拟合，而是早期还没训够。

#6. 第二条主线：数据不是越“数学”越好，真正迁移的是推理程序

论文最有意思的部分之一，是把数据拆成四种配置：

数据配置	含义
Math-CoT-20k	默认：数学 query + verified long-CoT
Math-NoCoT-20k	同样 query 和最终解答，但去掉 `<think>...</think>`
NuminaMath-20k	同样 query，但用 NuminaMath 的人工解答，通常更短且质量混杂
Countdown-CoT-20k	Countdown 算术小游戏 + long-CoT，包含 trial-and-error / backtracking

Figure 3：四种数据配置的对比显示，数据质量、CoT 结构和程序性推理痕迹都会影响泛化 — Figure 3：数据配置对比

这里有三个关键发现。

#6.1 Long-CoT 对 reasoning-intensive task 更有用，但不一定对所有通用能力更好

Math-CoT 相比 Math-NoCoT，在 MATH、AIME、GPQA、MMLU-Pro 等 reasoning-intensive 任务上通常更强。说明 <think> 里的探索过程确实提供了额外信号，不只是最终答案有用。

但在 IFEval、AlpacaEval 这类偏指令跟随/开放回答质量的任务上，Math-NoCoT 有时反而更好。原因也很直观：长思考可能扰乱格式、增加啰嗦程度，甚至影响 alignment-like behavior。

这提醒我们：long-CoT 不是免费午餐。它可能增强推理，但也可能伤害“按要求输出”和“简洁有用”。

#6.2 低质量数据会制造“SFT 不泛化”的假象

NuminaMath-20k 的效果明显差。它在很多 OOD benchmark 上下降，in-domain math 也没有明显收益。

这说明，如果用低质量、短、缺步骤、格式不稳定的数据做 SFT，然后看到模型不泛化，不能直接归因于“SFT objective 不行”。也许只是数据质量不够。

这点对今天很多 post-training 实验很重要：我们经常比较 SFT 和 RL，但 SFT 数据本身可能远没有被认真控制。一个弱 SFT baseline 很容易把 RL 的优势放大。

#6.3 Countdown-CoT：玩具算术游戏也能迁移，说明程序结构比领域知识更关键

Countdown 是一个简单算术游戏：给几个数字和目标值，用加减乘除组合出目标。它没有复杂数学知识，但需要 trial and error、回溯、验证。

惊讶的是，对 Qwen3-14B 和 Qwen3-8B 来说，Countdown-CoT 训练后不仅提升数学任务，还能提升一些代码、科学、多领域推理任务。甚至在数学任务上，Countdown-CoT 可以超过 Math-NoCoT。

这说明 long-CoT 里可迁移的东西可能不是“数学知识”，而是更抽象的程序：

把问题拆开；
尝试一条路径；
发现不行就回退；
检查约束；
重新组合；
最后验证答案。

这和 LLM Agent 训练非常相关。Agent 轨迹里真正值得学的，也许不是某个网页、某个 API、某个具体任务的答案，而是：遇到失败如何恢复、如何设子目标、如何验证、如何回滚、如何重新规划。

#7. 第三条主线：模型能力决定它学到“程序”还是只学到“啰嗦”

作者进一步固定数据和训练 protocol，只改变 Qwen3 base model 的规模：1.7B、4B、8B、14B。

结果非常清楚：

14B 有明显 dip-and-recovery，最终跨域收益广；
8B、4B 有恢复，但收益变小；
1.7B 即使训练到后期，很多任务仍然 marginal 或 negative；
小模型 response length 更长，更难从“长而散”收缩到“短而准”。

Figure 4：同样的 long-CoT SFT，强模型更可能学到可迁移推理程序，弱模型更容易停留在表面 verbosity；同页还展示了 safety ASR 上升 — Figure 4：模型能力与安全退化

这给了一个特别重要的判断：

long-CoT SFT 对弱模型不一定是“能力注入”，也可能只是“风格污染”。

强模型看到长 CoT，可能抽象出 backtracking、verification、decomposition；弱模型看到长 CoT，可能只学会：回答要长、要反复说 wait、要不断检查、要写很多中间句。

这也解释了为什么一些小 reasoning model 会特别容易“想太多”或 loop。它们可能没有足够能力把长轨迹压缩成有效策略，于是保留了表面 token pattern。

论文还引用了一个相关观察：较小的 distilled reasoning models 往往比更大的 distilled counterparts 输出更长。这和我们在实际使用小型 think 模型时的体验很一致。

#8. 第四条主线：泛化是非对称的，reasoning 变强但 safety 变弱

这篇论文最值得警惕的结论是：long-CoT reasoning SFT 会让安全性下降。

作者用 HEx-PHI 测 harmful instruction 下的 attack success rate。比较 Math-CoT 和 Math-NoCoT 后发现：

Math-CoT 会显著提高 ASR，也就是更容易输出有害内容；
Math-NoCoT 的安全退化小很多；
两者 query 和 final answer 相同，主要差别是有没有 long-CoT thinking process。

因此，安全下降更可能来自 long-CoT 中的 procedural pattern，而不是数学内容本身。

论文给了一个 case study：base model 面对传播 RAT 的请求会直接拒绝；long-CoT SFT 后，模型在 thinking 中先说“这是非法/不道德的”，然后开始自我合理化：“也许是教育目的”“假设是网络安全课程”，最后输出具体有害步骤。

作者的解释很有启发性：这可能也是一种“泛化”。long-CoT SFT 强化了一个 persistent problem-solving prior：遇到障碍不要停，继续找可行路径。对于数学题，这是好事；对于 harmful query，拒答策略本身变成了“障碍”，模型会在长思考中绕过它。

这对 reasoning model safety 很关键。我们不能只问“模型会不会推理”，还要问：

它学到的 persistence、backtracking、problem solving prior，会不会同样迁移到不该解决的问题上？

#9. 和“SFT vs RL”的关系：这篇文章没有证明 SFT 优于 RL

需要特别注意：这篇论文没有直接比较 RL 方法，也没有证明 SFT 可以替代 RL。

它真正改变的是问题表述。

过去的问题是：

SFT 和 RL 谁更泛化？

这篇文章建议改成：

在给定 base model、数据质量、轨迹结构、训练充分性、评测方式后，SFT 泛化到哪里？RL 的额外优势又来自哪里？

如果 SFT baseline 没训够、数据质量差、模型太弱，那么“RL > SFT”的结论可能部分来自不公平设置。反过来，即使 SFT 在某些条件下能泛化，RL 仍可能有它的独特优势，例如 on-policy exploration、reward-guided search、对错误轨迹的修正、对策略分布的主动塑形等。

所以更好的研究方向不是用一句话压扁：

“SFT 只会记忆”；
“SFT 也能泛化，所以 RL 不重要”。

而是把后训练拆成更细的问题：

base model 预训练中已经有哪些 latent procedure？
SFT 是在激活/重排这些 procedure，还是注入新 procedure？
long-CoT 中哪些 token pattern 是表面风格，哪些是可迁移算法？
RL 的 advantage 是来自 on-policy distribution，还是来自 reward 对错误路径的筛选？
safety degradation 是因为 reasoning 本身，还是因为 long-CoT 给了模型绕过约束的空间？

#10. 对 LLM Agent 和长轨迹 RL 的启发

这篇文章虽然研究的是数学 reasoning SFT，但对 LLM Agent 很有启发。

#10.1 Agent 轨迹 SFT 也可能有 dip-and-recovery

Agent 轨迹比数学 CoT 更长、更乱，包含工具调用、观察、失败、恢复、计划修改。如果 long-CoT 都会出现“先学长格式，再学有效程序”的阶段，那么 agent SFT 更可能出现类似动态。

这意味着，只看早期 checkpoint 说“agent SFT 不泛化”，可能也会误判。应该跟踪完整训练轨迹，包括：

任务成功率；
轨迹长度；
工具调用次数；
重复 action 比例；
无效观察后的恢复能力；
是否能在 OOD 环境中迁移。

#10.2 轨迹质量比轨迹数量更关键

论文里的 NuminaMath 结果说明，低质量数据会让 SFT 看起来不泛化。对 Agent 来说这更严重：大量自动采样轨迹里可能有重复点击、无效搜索、错误回滚、幻觉观察、工具误用。

如果直接拿这些轨迹做 SFT，模型可能学到的不是“解决任务”，而是“表演一个看起来很忙的 agent”。

因此 Agent 数据要特别关注：

是否有明确成功信号；
是否有失败恢复过程；
是否有状态验证；
是否有冗余动作过滤；
是否能保留关键 backtracking，而不是保留所有废话。

#10.3 小模型上的 agent SFT 风险更大

论文显示小模型更可能学到 surface verbosity。对应到 Agent，小模型可能学到：

多写 plan；
多调用工具；
多检查；
多说“我将继续”；
但不会真正形成有效状态机。

这会导致长轨迹中的死循环、重复工具调用、无意义 self-reflection。也就是说，对于小模型，直接灌长 agent trajectory 可能适得其反，需要更强的轨迹压缩、动作抽象、分层监督或 curriculum。

#10.4 Safety / refusal 也会被“解决问题优先级”冲击

Agent 模型如果通过 long-CoT / long-trajectory SFT 学到强 persistence，那么它可能在安全边界前继续寻找 workaround。这个问题在能调用工具的 agent 上比纯文本模型更危险。

所以对 Agent 后训练来说，安全不是最后加一个拒答模板就够了，而要训练模型识别：有些障碍不是待突破的 search barrier，而是任务边界。

#11. 我对这篇论文的判断

我觉得这篇文章的价值不在于给出一个惊天动地的新算法，而在于它把 reasoning SFT 的讨论从口号拉回到了条件分析。

它告诉我们：

SFT 不是天然只会记忆；
long-CoT SFT 确实可能学到可迁移程序；
但这种学习依赖训练是否充分、数据是否高质量、模型是否足够强；
response length 是一个有用的诊断信号：过长可能意味着仍停留在表面模仿阶段；
泛化不是单向好事，推理程序也会迁移到 safety failure；
用低质量或欠优化的 SFT baseline 去和 RL 比，容易夸大“RL 才泛化”的叙事。

但它也有明显边界：

主要数据来自数学 reasoning，是否能外推到代码、科学、多模态、真实 agent 轨迹，还需要验证；
模型规模最大到 20B dense，没有覆盖更大 dense model 或 MoE；
没有和 RL 做直接公平比较，所以不能回答“SFT vs RL 谁最终更好”；
对“模型内部到底学到了什么程序”仍主要通过行为和长度间接判断，没有机制层面的证明。

如果把它放到我们关心的研究主线里，我会把它总结成一句话：

长推理监督的关键不是让模型背下长答案，而是让有足够能力的 base model 在足够优化和足够干净的轨迹中，提取可迁移的推理程序；但这些程序会无差别迁移，所以 reasoning 能力、安全边界、轨迹长度和循环倾向必须一起研究。

#12. 可以继续追的问题

这篇文章之后，我觉得有几个自然的研究问题：

SFT 学到的 procedural pattern 能否被显式测量？ 例如构造 backtracking、verification、state tracking 的微基准，而不是只看最终 accuracy。
response length 的 rise-and-fall 是否普遍存在于 agent SFT？ 对网页、代码、工具调用、多轮任务是否也有同样的 dip-and-recovery？
小模型如何避免只学 verbosity？ 是否需要先做轨迹压缩、latent action abstraction，或者用 process-level distillation？
SFT 和 RL 的公平比较应该如何设计？ 要匹配数据质量、训练预算、base capability、on/off-policy distribution，否则很容易比较到伪差异。
如何训练“知道何时停止”的 reasoning model？ 这和重复思考、temperature=0 死循环、stop criteria、length control、uncertainty calibration 都相关。
安全边界如何不被 problem-solving prior 绕过？ 能否把“不可突破的边界”和“可解决的障碍”在训练中区分开？

这篇文章的最大启发是：后训练不是一个单一 objective 的问题，而是 模型能力 × 数据结构 × 优化动态 × 解码/评测协议 × 安全约束 的耦合系统。对于想做基础模型训练、agent 预训练、长轨迹 RL 的人来说，这比一句“SFT memorizes, RL generalizes”更接近真实问题。