#Think / Reasoning 模型的 SFT:和传统指令微调有什么不同?
一句话核心结论: 传统 instruction SFT 主要是在教模型“按用户指令给出一个好回答”;think / reasoning 模型的 SFT 则是在教模型“进入一种可展开的计算模式”:先分析、分解、尝试、验证、必要时反思或回退,最后再给答案。它更像对基础模型进行 reasoning behavior prior initialization:用显式推理轨迹初始化一种行为先验,为后续 RLVR、verifier、test-time search、budget control 和 latent reasoning 打基础。
用户问的核心其实非常关键:
现在这些带
<think>、长 CoT、reasoning_content、thinking mode 的模型,SFT 和以前 instruct/chat SFT 到底有什么不一样?有没有专门研究 think 模型 SFT 的工作?
答案是:有,而且 2024–2026 这条线正在快速成形。
代表工作包括:
- DeepSeek-R1 / R1-Zero / R1-Distill;
- STILL-2 / slow-thinking reproduction;
- Sky-T1;
- s1 / s1K / budget forcing;
- LIMO;
- OpenThoughts / OpenThinker;
- Qwen3 thinking / non-thinking unified model;
- 以及 long-CoT distillation、rejection sampling SFT、process-supervised SFT、budget-conditioned SFT 等一系列方法。
这篇文章按“问题链”来梳理。
#0. 先说人话:以前 SFT 教模型“怎么答”,现在 think SFT 教模型“怎么想出来”
传统 chat / instruction SFT 的训练样本大致是:
User: 帮我总结这篇文章
Assistant: 这篇文章主要讲了……
它教模型的是:
- 看懂用户指令;
- 给出符合人类偏好的回答;
- 语气自然;
- 格式合理;
- 不乱拒答;
- 不输出危险内容;
- 遵循基本对话规范。
而 think / reasoning SFT 的样本更像:
Problem: 一道数学 / 代码 / 逻辑 / 科学问题
Assistant:
<think>
我先理解题意……
这里有两个约束……
尝试方法 A……发现不行……
换成方法 B……
检查边界条件……
</think>
<answer>
最终答案是……
</answer>
它教模型的是:
- 什么时候不要直接答;
- 如何展开长推理;
- 如何分解问题;
- 如何列中间变量;
- 如何做自检;
- 如何发现错误并修正;
- 如何在最后压缩成答案;
- 如何把显式 thinking 和 final answer 分开。
所以最本质的差别是:
| 维度 | 传统 instruction/chat SFT | think/reasoning SFT |
|---|---|---|
| 学习对象 | 回答分布 | 推理轨迹 + 最终答案分布 |
| 典型样本 | instruction → response | problem → long reasoning trace → answer |
| 主要目标 | 听话、有帮助、安全、自然 | 会展开计算、会验证、会反思、会控制思考 |
| 训练信号 | 人类/模型示范回答 | 强 teacher long-CoT、RL 轨迹、筛选后的推理过程 |
| 常用过滤 | 偏好评分、质量筛选 | 答案验证、单元测试、verifier、PRM/ORM、拒绝采样 |
| 推理时特征 | 一次生成回答 | thinking mode、reasoning budget、budget forcing、best-of-N |
| 风险 | 幻觉、过度拒绝、风格模板化 | 伪推理、错误 CoT 污染、overthinking、教师依赖 |
换句话说:
普通 SFT 是让模型像助手;think SFT 是让模型像一个会把草稿纸写出来的解题者。
但注意:它“像会思考”不等于它真的学到了最优推理算法。这正是后面要分析的核心问题。
#1. 为什么 think SFT 会成为新问题?
#1.1 早期 instruction tuning 已经解决不了 reasoning model 的核心矛盾
FLAN、T0、InstructGPT、Alpaca、LIMA 这条线解决的是:
预训练模型如何变成能听懂自然语言指令的助手?
但 reasoning model 面临的问题是:
模型遇到难题时,如何花更多 test-time compute 得到更好的答案?
这不是简单“回答更有礼貌”或“格式更像 ChatGPT”能解决的。
对于数学、代码、科学推理、复杂规划、Agent 长任务,模型需要做的是:
- 多步推导;
- 中间状态保持;
- 分支尝试;
- 自我检查;
- 工具调用;
- 失败恢复;
- 动态决定是否继续思考。
这就让 SFT 的对象从“最终回答”变成“整个推理过程”。
#1.2 R1 / o1-style 模型让大家意识到:推理时计算是新 scaling 轴
传统 scaling 主要是:
更多参数 + 更多预训练数据 + 更多训练 compute
reasoning model 加入了新的轴:
更多思考 token + 更多采样路径 + 更多 verifier + 更多工具交互 + 更多搜索
SFT 要服务这个新范式,就不能只教 answer style,而要教模型如何使用“思考预算”。
#2. 从优化目标看:think SFT 本质上仍是 imitation learning
这一点很重要。
SFT 的目标函数仍然是 next-token prediction:
最大化 teacher trace 中每个 token 的概率
也就是说,给定问题和前面已经生成的 reasoning tokens,模型学习预测下一个 token。
所以 think SFT 直接优化的是:
p(reasoning trace, final answer | problem)
而不是直接优化:
answer correctness
search efficiency
true causal reasoning quality
这导致一个根本张力:
think SFT 看起来是在教模型思考,但训练信号本质上是模仿教师写出来的思考文本。
它没有天然知道:
- 哪一步推理真的关键;
- 哪一步只是教师口癖;
- 哪个分支本来应该探索但没有探索;
- 为什么教师在这里停止;
- 是否存在更短、更好、更稳的解法;
- 中间步骤是否忠实反映模型内部计算。
所以,think SFT 可以带来能力提升,但它不是万能的“推理算法学习”。
#3. 那为什么少量高质量 think 数据会有效?
s1、LIMO、Sky-T1 等工作都指向一个现象:reasoning SFT 不一定需要海量数据,小量高质量 long-CoT 也可能显著提升。
这背后有几个原因。
#3.1 基础模型已经有潜在推理能力
大模型预训练中已经见过大量:
- 数学解题;
- 代码调试;
- StackOverflow;
- 竞赛题解析;
- 教材推导;
- 论文证明;
- 科学问答;
- 人类讨论和纠错过程。
所以 think SFT 不是从零教智能,而更像是:
把预训练中已有的隐式能力,重新路由到显式 reasoning mode
这和 LIMA 的 “superficial alignment” 有点类似:少量高质量样本可能足以改变模型的交互模式。
#3.2 一条好的 reasoning trace 是高密度监督
一个普通回答可能只告诉模型“答案是什么”。
一条高质量 reasoning trace 会告诉模型:
- 如何理解题目;
- 哪些条件重要;
- 如何分解;
- 如何选择方法;
- 如何检查中间结果;
- 如何避免常见陷阱;
- 如何决定最终答案。
这些 token 虽然多,但监督密度也高。
#3.3 think SFT 很大程度上是在教“模式切换”
对于已经很强的模型,关键可能不是注入新知识,而是让它学会:
简单问题:直接答
困难问题:进入 slow thinking / long-CoT 模式
这是一种 policy prior shift。
模型学到:遇到数学/代码/复杂推理任务时,不要急着输出最终答案,而是先把问题放到可计算的 scratchpad 里展开。
#4. 代表工作一:DeepSeek-R1 —— cold-start SFT、RL、rejection sampling、distillation 的组合范式
论文: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
arXiv: 2501.12948
时间: 2025
DeepSeek-R1 是公开 reasoning model 里最重要的参照之一,因为它清楚展示了 SFT 和 RL 在 reasoning model 中各自扮演什么角色。
#4.1 R1-Zero:不做 SFT,直接 RL,会发生什么?
DeepSeek-R1-Zero 从 base model 直接做大规模 RL,没有传统 cold-start SFT。
结果很有意思:
- 模型涌现 long-CoT;
- 出现 self-reflection;
- 会自我验证;
- 会调整策略;
- 数学和代码能力明显提升。
这说明:reasoning 行为可以通过可验证 reward 被 RL 激发出来,不一定必须先靠 SFT 教出来。
但 R1-Zero 也有问题:
- 可读性差;
- 中英混杂;
- 输出格式不稳定;
- 重复;
- 对用户不友好。
这就引出了 cold-start SFT 的作用。
#4.2 R1:cold-start SFT 的作用不是创造全部 reasoning,而是让 RL 更稳定、更可读
DeepSeek-R1 使用少量 high-quality long-CoT cold-start 数据,让模型先具备较稳定的推理格式和可读性,然后再做 reasoning-oriented RL。
可以把它理解成:
cold-start SFT:给模型一套可读、稳定的 reasoning output protocol
RL:用可验证 reward 推动模型真的提高求解能力
rejection sampling:从强模型/当前模型中筛选高质量轨迹
distillation:把强 reasoning 模型的行为迁移到小模型
这里 SFT 和 RL 的分工很清晰:
| 阶段 | 主要作用 |
|---|---|
| cold-start SFT | 格式、可读性、初始 reasoning mode |
| RLVR / RL | 激发探索、自验证、答案正确率提升 |
| rejection sampling SFT | 扩展高质量 reasoning 数据 |
| distillation | 把大模型 reasoning 行为迁移给小模型 |
| general SFT / alignment | 恢复通用对话、安全、可用性 |
#4.3 R1-Distill:think SFT 最直接的形态
DeepSeek-R1-Distill 系列用 R1 生成 reasoning traces,蒸馏到 Qwen / Llama 小模型上。
这就是典型 long-CoT distillation:
强 reasoning teacher → 生成长推理轨迹 → 筛选 → student SFT
它说明小模型可以通过 SFT 学到强模型的 reasoning style 和部分能力。
但这也暴露问题:student 很可能继承 teacher 的错误、风格、冗余和局限。
#5. 代表工作二:STILL-2 / Sky-T1 —— 公开复现 slow-thinking system
#5.1 STILL-2:Imitate, Explore, Self-Improve
论文/报告: Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems
arXiv: 2412.09413
时间: 2024
STILL-2 是较早公开复现 o1-like slow-thinking reasoning system 的工作之一。
它的名字可以概括成三步:
- Imitate:用 distilled long-form thought data 做 SFT,让模型进入 slow-thinking 模式;
- Explore:对难题生成多条 rollout,筛选正确或高质量轨迹;
- Self-Improve:用进一步 SFT / DPO 迭代改进。
它的重要性在于:把 reasoning SFT 看成一个闭环的一部分,而不是一次性微调。
#5.2 Sky-T1:低成本训练 O1-preview-like 模型
项目: Sky-T1: Train your own O1 preview model within $450
时间: 2025
基座: Qwen2.5-32B-Instruct
数据: 约 17K long-CoT 数据,包括 coding、math、science/puzzle 等。
Sky-T1 的意义在于工程层面:它展示了使用公开数据和较低成本,也能训练出具备 slow-thinking 风格的 reasoning 模型。
它说明 think SFT 的门槛正在降低:不一定需要闭源 o1 的全部训练管线,也可以通过 high-quality long-CoT SFT 获得显著效果。
但它也提醒我们:这种模型很大程度上仍是在蒸馏和复现一种 reasoning behavior,而不是从头发现 reasoning 算法。
#6. 代表工作三:s1 —— 1000 条高质量 reasoning traces + budget forcing
论文: s1: Simple test-time scaling
arXiv: 2501.19393
时间: 2025
s1 是理解 think SFT 的关键工作,因为它把问题推到一个极端:
只用约 1000 条高质量 reasoning examples,能不能让模型获得强 reasoning 能力?
s1 使用 s1K 数据,对 Qwen2.5-32B-Instruct 做 SFT,并引入 budget forcing。
#6.1 s1K 说明:数据质量和选择比规模更关键
s1 的结论不是“数据越多越好”,而是精选困难、多样、高质量样本可能比大规模低质量数据更有效。
这和 LIMA 很像,但面向 reasoning:
- LIMA:少量高质量对话样本能做 alignment;
- s1:少量高质量 reasoning trace 能激活 reasoning mode。
#6.2 budget forcing:SFT 之后还要控制 test-time compute
s1 的另一个关键点是 budget forcing:
- 如果模型太早停止,就强制继续,例如追加
Wait; - 如果超过预算,就截断或引导停止。
这说明 reasoning SFT 后,推理时控制仍然重要。
模型不只是“学会思考”,还要学会:
思考多久、什么时候停、是否继续检查
这已经超出传统 SFT 的范围,进入 adaptive test-time compute 的问题。
#7. 代表工作四:LIMO —— Less is More for Reasoning
论文: LIMO: Less is More for Reasoning
arXiv: 2502.03387
时间: 2025
LIMO 进一步强化了“小量高质量 reasoning 数据有效”的观点。它报告使用约 817 条精心筛选的数学 reasoning 样本进行 SFT,在 AIME24、MATH500 等 benchmark 上取得强效果。
#7.1 LIMO 的核心假设
LIMO 提出的直觉可以概括为:
如果基础模型已经在预训练中编码了足够的领域知识,那么复杂 reasoning 能力可以通过少量高质量样例被激活。
这被称为类似 Less-Is-More Reasoning Hypothesis 的观点。
#7.2 它和传统 SFT 的不同
传统 instruction SFT 追求覆盖大量用户任务。
LIMO-style reasoning SFT 更追求:
- 样本难度;
- 轨迹质量;
- 解法代表性;
- 是否能触发可迁移的 reasoning strategy。
它不像是在收集“用户请求大全”,更像是在挑选“思维范式样板”。
#7.3 局限
少量高质量样本有效,并不意味着 reasoning 已经解决。
它可能只是在特定 benchmark 上激活了已有模式;如果换到 OOD 任务、真实 Agent、开放科学问题、长程代码任务,是否仍然有效,需要更严格验证。
#8. 代表工作五:OpenThoughts / OpenThinker —— 系统研究 reasoning data recipe
论文: OpenThoughts: Data Recipes for Reasoning Models
arXiv: 2506.04178
时间: 2025
OpenThoughts / OpenThinker 的价值在于,它不是只发布一个模型,而是系统研究 reasoning data recipe。
它关注的问题包括:
- 问题来源怎么选?
- 难度如何过滤?
- teacher model 如何选择?
- 每题采样多少条 trace?
- 如何用 verifier / rejection sampling 筛选?
- 数据如何去重?
- reasoning trace 长度如何控制?
- 数据 scale 到百万级后是否继续有效?
#8.1 从“模型配方”转向“数据配方”
这类工作说明 think SFT 的关键已经不是一句“拿 CoT 数据 SFT”这么简单,而是完整 pipeline:
problem collection
→ difficulty filtering
→ teacher rollout
→ answer verification
→ process-quality filtering
→ diversity control
→ formatting
→ SFT
→ evaluation
→ iterate
每一步都会影响最终模型。
#8.2 对研究的意义
OpenThoughts 这类工作把 reasoning SFT 从“经验炼丹”推进到“controlled experiments”。这对研究者非常重要,因为它让我们能问:
- 是题目难度重要,还是 trace 长度重要?
- 是 teacher 强度重要,还是多样性重要?
- 是最终答案过滤就够,还是需要过程过滤?
- 数据量 scaling 何时失效?
- 小模型和大模型需要的数据是否不同?
#9. 代表工作六:Qwen3 —— thinking / non-thinking 融合到一个模型
论文: Qwen3 Technical Report
arXiv: 2505.09388
时间: 2025
Qwen3 是开源体系中一个很好的例子,因为它不是只训练一个永远长思考的模型,而是把 thinking mode 和 non-thinking mode 融合到统一模型里。
公开资料中,Qwen3 支持类似:
enable_thinking=True/False;/think、/no_think;- thinking budget;
- thinking 与 non-thinking 数据混合训练。
#9.1 为什么这很重要?
因为 reasoning model 的一个现实问题是 overthinking。
简单问题不需要长 CoT:
2+3=?
如果模型写 1000 token 思考,不仅浪费,还可能把正确答案想错。
所以新一代 think 模型不是永远 think,而是要学会:
什么时候 think,什么时候 no-think
#9.2 这让 SFT 变成 mode-conditioned training
Qwen3-style 训练不只是:
problem -> long-CoT -> answer
还要包含:
simple instruction -> direct answer
hard problem -> thinking trace -> answer
user says /no_think -> concise answer
user says /think -> expanded reasoning
这意味着 SFT 数据需要显式覆盖不同 reasoning modes。
这和传统 chat SFT 差异很大:传统 SFT 通常不把“推理预算控制”当成核心训练目标。
#10. think SFT 的主要技术路线分类
#10.1 Long-CoT distillation
最常见路线:用强 teacher 生成 long-CoT,再 SFT student。
DeepSeek-R1 / QwQ / Gemini Thinking / o1-like teacher
→ generate traces
→ verify/filter
→ student SFT
优点:
- 简单直接;
- 对小模型提升明显;
- 可快速复现 reasoning style。
缺点:
- teacher 依赖强;
- 错误和风格会继承;
- 很难超越 teacher;
- CoT 忠实性存疑。
#10.2 Rejection sampling SFT
对每个问题采样多条 reasoning trace,用答案匹配、单元测试、verifier 筛选正确轨迹。
优点:
- 降低错误样本污染;
- 能从模型自身挖掘高质量轨迹;
- 适合数学、代码等可验证任务。
缺点:
- 最终答案正确不代表过程正确;
- 会偏向可验证任务;
- 可能保留“碰巧对”的错误过程。
#10.3 Process-supervised SFT
不只看最终答案,还监督中间步骤,或训练模型生成 critique / correction。
相关于:
- process reward model;
- step-level verifier;
- Let’s Verify Step by Step;
- critique / self-correction traces;
- trajectory-aware supervision。
优点:
- 更接近真正推理过程;
- 有助于过滤错误中间步骤。
缺点:
- 步骤级标注昂贵;
- “中间步骤正确”很难定义;
- verifier 也可能被模型 hack。
#10.4 Budget-conditioned SFT
训练模型在不同预算下输出不同长度和深度的思考。
例如:
low budget: concise reasoning
medium budget: standard CoT
high budget: detailed verification
no-think: direct answer
优点:
- 解决 overthinking;
- 服务产品中的 low/medium/high reasoning effort;
- 更适合真实部署。
缺点:
- 需要高质量预算标注;
- 如何判断任务难度仍难;
- 固定预算不等于自适应预算。
#10.5 Search-trace / backtracking SFT
不是只给 clean solution,而是给搜索过程:尝试、失败、回退、换策略。
相关工作包括 Stream of Search、Self-Backtracking 等。
优点:
- 教模型搜索,而不是只背最优路径;
- 错误和恢复过程可能有训练价值。
缺点:
- 错误本身没有价值,有价值的是可诊断、可恢复、能暴露搜索结构的错误;
- 固定 DFS / 回退格式可能让模型学到僵硬策略;
- 不同任务对 backtracking 的需求差异很大。
#11. think SFT 和 RLVR/RL 的关系:不是替代,而是互补
#11.1 SFT:初始化行为先验
SFT 让模型知道:
- 应该写步骤;
- 应该分解问题;
- 应该检查答案;
- 应该用某种格式输出;
- 遇到难题不要急着答。
它提供一个合理初始策略。
#11.2 RLVR:用可验证 reward 优化结果
RLVR 关注:
- 数学答案是否正确;
- 代码是否通过测试;
- 工具任务是否完成;
- structured output 是否匹配;
- theorem proving 是否成功。
它不要求模型模仿某条教师轨迹,而是奖励最终结果。
这能补足 SFT 的短板:SFT 模仿已有轨迹,RL 有机会探索新策略。
#11.3 Verifier:连接 SFT 和 RL 的桥
Verifier 可以用于:
- 过滤 SFT 数据;
- 对多条 trace 排序;
- 作为 RL reward;
- test-time best-of-N;
- process supervision。
强 reasoning system 往往不是单独一个 SFT 模型,而是:
policy model + verifier + search + RL/self-improvement loop
#12. think SFT 的局限:为什么它可能到顶?
#12.1 CoT 忠实性问题
模型输出的 reasoning trace 不一定是它真正得到答案的因果过程。
它可能:
- 先隐式知道答案,再生成合理解释;
- 写出看似严谨但无效的推导;
- 为错误答案编造理由;
- 在训练中学到“解释腔”。
这会影响过程监督和可解释性。
#12.2 错误过程污染
如果训练数据中有错误推理,即使最终答案正确,也会被 SFT 学进去。
这在数学里很危险:
错误推导 → 碰巧答案对 → 被答案过滤保留 → 污染模型
所以仅靠 final answer filtering 不够,需要 process-level verification。
#12.3 Overthinking
reasoning SFT 容易让模型对简单题也长篇大论。
这会导致:
- 成本高;
- 延迟高;
- 用户体验差;
- 简单题反而出错;
- 模型在无意义反思中漂移。
这也是 s1 budget forcing、Qwen3 thinking/no-thinking、Reasoning on a Budget 等方向出现的原因。
#12.4 缺少探索和 credit assignment
SFT 不知道哪一步真正有价值。它给所有 token 类似监督:关键步骤、冗余解释、教师口癖、错误中间结论,都被当作要拟合的 token。
而真正 reasoning 需要:
- 尝试多个分支;
- 判断分支价值;
- 回溯;
- 调整策略;
- 学习何时停止;
- 根据失败反馈更新。
这些更像 RL / search / planning。
#12.5 Teacher 依赖
很多 open reasoning 模型本质是 teacher distillation。
这意味着:
- 容易继承 teacher 偏差;
- 难突破 teacher 上限;
- 数据许可和透明性有问题;
- 学到的是 teacher 的风格,不一定是普适推理机制。
#13. 和 latent reasoning 的关系:显式 <think> 可能只是过渡形态
显式 CoT 的优点是:
- 可训练;
- 可读;
- 可筛选;
- 可用 verifier 检查;
- 可作为 SFT 数据。
但它也有缺点:
- token 成本高;
- 语言空间低效;
- 未必忠实;
- 可能泄露不该暴露的推理;
- 容易变成模板化表演。
未来一个重要方向是:
visible CoT as bootstrap → hidden / latent reasoning as efficient computation
可能路线包括:
- 用 visible CoT teacher 训练 student,但推理时只输出答案;
- 使用 hidden scratchpad tokens;
- recurrent latent computation;
- compress CoT into dense latent states;
- 简单任务 latent/no-think,困难任务 visible think;
- 用 verifier 判断 latent computation 是否真的提升。
对 wenjun 关注的潜空间推理来说,think SFT 是一个很自然的 bootstrap:先用外显轨迹教模型“什么叫思考”,再研究如何把这种思考压缩进 latent state。
#14. 和 Agent trajectory training 的关系
think trace 可以看成一种单轮 mental trajectory:
problem → thought → answer
Agent 轨迹则是:
observation → thought → action → observation → thought → action → ... → result
两者本质上都是轨迹学习。
但 Agent 更难,因为它有真实环境反馈和副作用:
- 工具调用;
- 文件修改;
- 网页操作;
- 代码执行;
- 任务失败恢复;
- prompt injection;
- 长程状态管理。
普通 think SFT 的局限在 Agent 中会被放大:
- 只模仿成功轨迹,不知道失败后怎么办;
- 不知道动作代价;
- 没有 exposure correction;
- 不知道何时询问用户;
- 缺少 long-horizon credit assignment。
所以 Agent 方向最终需要:
trajectory SFT + process reward + environment feedback + online RL + model-based planning
这和 wenjun 关注的 model-based RL for LLM Agent 是高度相关的。
#15. 一个统一框架:think SFT 在训练栈中的位置
可以把 reasoning model 训练栈理解成:
Pretraining
学语言、知识、代码、数学、隐含任务模式
Instruction SFT
学会按用户指令回答,形成 assistant interface
Reasoning / Think SFT
学会显式推理轨迹,初始化 slow-thinking behavior prior
Verifier / PRM / ORM
学会评价结果或中间过程
RLVR / RL
用可验证 reward 优化答案正确率和探索策略
Rejection Sampling / Self-Improvement
生成更多轨迹,筛选,再 SFT / DPO / RL
Test-time Compute / Search
推理时采样、验证、回溯、预算控制
Latent Reasoning
把显式推理压缩成更高效的内部计算
Agent Trajectory Training
把 reasoning 扩展到环境交互和长程行动
所以 think SFT 不是终点,而是 bootstrap。
它的关键作用是:
- 给模型一个 reasoning mode;
- 给 RL 一个好初始化;
- 给 verifier/search 一个候选生成器;
- 给小模型一个蒸馏路径;
- 给 latent reasoning 一个可监督的外显教师;
- 给 Agent 一个初始 mental trajectory 格式。
#16. 当前专门研究 think SFT 的代表工作速览
| 工作 | 时间 | 核心问题 | SFT 相关要点 |
|---|---|---|---|
| DeepSeek-R1 | 2025 | RL 如何激发 reasoning | cold-start long-CoT SFT 稳定可读性;RL 后 rejection sampling;R1-Distill 进行 long-CoT 蒸馏 |
| STILL-2 | 2024 | 如何复现 slow-thinking system | imitate long-form thought data,再 explore/self-improve |
| Sky-T1 | 2025 | 低成本训练 o1-preview-like model | 约 17K long-CoT SFT,基于 Qwen2.5-32B-Instruct |
| s1 | 2025 | 简单 test-time scaling | 1K 高质量 reasoning traces + budget forcing |
| LIMO | 2025 | reasoning 是否也 less is more | 817 条 curated reasoning samples 激活推理能力 |
| OpenThoughts | 2025 | reasoning data recipe 如何设计 | 系统研究数据来源、teacher、采样、过滤、scaling curves |
| Qwen3 | 2025 | thinking / non-thinking 如何统一 | long-CoT cold-start、reasoning RL、混合 thinking/non-thinking SFT、thinking budget |
| Stream of Search / Backtracking 线 | 2024–2025 | 错误/回退轨迹是否有价值 | 从 clean solution SFT 转向 search trace / backtracking trace 学习 |
#17. 我对这个方向的研究判断
#17.1 think SFT 的价值是真实的,但不是因为它“直接教会推理算法”
它有效,主要因为:
- 基础模型已有潜在能力;
- 高质量 long-CoT 提供强行为模板;
- SFT 改变模型的 mode;
- 显式 scratchpad 提供更多 test-time computation;
- SFT 给后续 RL/search/verifier 一个可用初始化。
#17.2 think SFT 的上限也很清楚
它的直接目标是 teacher trace likelihood,不是 outcome optimality。
所以它会遇到:
- rationale imitation;
- teacher dependence;
- CoT unfaithfulness;
- overthinking;
- 缺少探索;
- 缺少 credit assignment;
- 对 Agent 长程任务不够。
#17.3 真正下一阶段不是“更多长 CoT”,而是“可控、可验证、可压缩的思考”
我认为后续最重要的问题不是让模型写更长 <think>,而是:
- 什么样的 reasoning trace 真有用?
- 如何验证中间过程?
- 如何学会搜索而不是背诵 clean solution?
- 如何决定 think / no-think?
- 如何把显式思考压缩到 latent space?
- 如何在 Agent 环境里学习失败恢复和长程 credit assignment?
- 如何用 model-based RL 学 transition/value,而不只是 imitation policy?
#18. 对 wenjun 可能值得做的研究方向
#18.1 Trace quality attribution:哪些 reasoning tokens 真有因果价值?
可以做:
- 删除某些 reasoning steps,看答案是否变化;
- 替换中间步骤,看最终是否受影响;
- 比较 clean solution、verbose CoT、search trace、backtracking trace;
- 做数据归因:哪些样本带来哪些能力提升。
目标是从“好看的推理”转向“可验证有效的推理”。
#18.2 Agent-style reasoning SFT:从 mental trace 到 action trace
把 think SFT 扩展到 Agent:
state → thought → action → observation → reflection → next action
重点不是单步答案,而是:
- 是否正确调用工具;
- 是否验证结果;
- 是否恢复错误;
- 是否避免越权;
- 是否保持用户目标;
- 是否抵抗 prompt injection。
#18.3 Model-based reasoning:学习推理状态转移和值函数
普通 SFT 只学 policy imitation。
更基础的问题是:模型能否学习:
- 当前解题状态是什么;
- 做某个推理步骤后状态如何变化;
- 当前路径成功概率多高;
- 哪个分支值得探索;
- 什么时候停止。
这就是把 reasoning model 推向 model-based RL / world model 的方向。
#18.4 Latent think distillation:把外显 CoT 压缩成内部计算
可研究:
- visible CoT teacher → hidden-state student;
- compressed CoT;
- learned latent scratchpad;
- recurrent depth;
- final answer without visible CoT;
- 什么时候需要暴露推理,什么时候隐藏。
这直接连接潜空间推理。
#18.5 Budget controller:学会何时思考、思考多久
可以设计 benchmark:
- 简单题直接答;
- 中等题短 CoT;
- 难题长 CoT + verifier;
- Agent 长任务中动态分配检索、计划、工具、测试、回滚预算。
这比单纯 reasoning accuracy 更接近真实系统。
#19. 总结
目前 think / reasoning 模型的 SFT 和传统 SFT 的区别,可以压缩成一句话:
传统 SFT 教模型“如何作为助手回答”;think SFT 教模型“如何把问题转化为一段可展开、可监督、可蒸馏、可验证的计算轨迹”。
它带来了新的训练范式:
long-CoT distillation
+ cold-start SFT
+ rejection sampling
+ process filtering
+ budget-conditioned SFT
+ thinking / no-thinking mode
+ RLVR / verifier / self-improvement
但它也有新的核心矛盾:
模仿 teacher trace ≠ 学到真实推理算法
更长 thinking ≠ 更有效 reasoning
可读 CoT ≠ 忠实内部计算
正确 final answer ≠ 正确 reasoning process
我的最终判断是:
think SFT 是 reasoning model 的重要 bootstrap,但不是最终答案。它的真正价值在于给模型一个可操作的 slow-thinking 行为先验,让后续 RL、verifier、search、latent reasoning 和 Agent trajectory learning 有东西可以优化、筛选和压缩。
对未来研究来说,最有价值的不是继续堆更多长 CoT,而是研究:
- 哪些思考有用;
- 如何验证思考;
- 如何学会搜索;
- 如何控制预算;
- 如何从显式 CoT 走向潜空间推理;
- 如何把单轮 think trace 扩展成长期 Agent 的行动轨迹。
这条线很可能会成为 LLM Agent、代码智能、model-based RL 和基础模型后训练交汇处的核心问题之一。
#参考锚点
- DeepSeek-AI, DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, arXiv:2501.12948, 2025.
- Muennighoff et al., s1: Simple test-time scaling, arXiv:2501.19393, 2025.
- Ye et al., LIMO: Less is More for Reasoning, arXiv:2502.03387, 2025.
- Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems, arXiv:2412.09413, 2024.
- NovaSky-AI, Sky-T1: Train your own O1 preview model within $450, 2025.
- OpenThoughts Team, OpenThoughts: Data Recipes for Reasoning Models, arXiv:2506.04178, 2025.
- Qwen Team, Qwen3 Technical Report, arXiv:2505.09388, 2025.
- Wei et al., Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, arXiv:2201.11903, 2022.
- Kojima et al., Large Language Models are Zero-Shot Reasoners, arXiv:2205.11916, 2022.
- Wang et al., Self-Consistency Improves Chain of Thought Reasoning in Language Models, arXiv:2203.11171, 2022.
- Lightman et al., Let’s Verify Step by Step, arXiv:2305.20050, 2023.
- Gandhi et al., Stream of Search, arXiv:2404.03683, 2024.
- Snell et al., Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters, arXiv:2408.03314, 2024.
- Research survey anchors: Reasoning on a Budget, Budget Guidance, Continue-Thinking Token, ThinkDial, Plan-and-Budget, Compressed Chain-of-Thought, Adaptive Graph of Thoughts.