#Think / Reasoning 模型的 SFT:和传统指令微调有什么不同?

一句话核心结论: 传统 instruction SFT 主要是在教模型“按用户指令给出一个好回答”;think / reasoning 模型的 SFT 则是在教模型“进入一种可展开的计算模式”:先分析、分解、尝试、验证、必要时反思或回退,最后再给答案。它更像对基础模型进行 reasoning behavior prior initialization:用显式推理轨迹初始化一种行为先验,为后续 RLVR、verifier、test-time search、budget control 和 latent reasoning 打基础。

用户问的核心其实非常关键:

现在这些带 <think>、长 CoT、reasoning_content、thinking mode 的模型,SFT 和以前 instruct/chat SFT 到底有什么不一样?有没有专门研究 think 模型 SFT 的工作?

答案是:有,而且 2024–2026 这条线正在快速成形。

代表工作包括:

  • DeepSeek-R1 / R1-Zero / R1-Distill;
  • STILL-2 / slow-thinking reproduction;
  • Sky-T1;
  • s1 / s1K / budget forcing;
  • LIMO;
  • OpenThoughts / OpenThinker;
  • Qwen3 thinking / non-thinking unified model;
  • 以及 long-CoT distillation、rejection sampling SFT、process-supervised SFT、budget-conditioned SFT 等一系列方法。

这篇文章按“问题链”来梳理。


#0. 先说人话:以前 SFT 教模型“怎么答”,现在 think SFT 教模型“怎么想出来”

传统 chat / instruction SFT 的训练样本大致是:

User: 帮我总结这篇文章
Assistant: 这篇文章主要讲了……

它教模型的是:

  • 看懂用户指令;
  • 给出符合人类偏好的回答;
  • 语气自然;
  • 格式合理;
  • 不乱拒答;
  • 不输出危险内容;
  • 遵循基本对话规范。

而 think / reasoning SFT 的样本更像:

Problem: 一道数学 / 代码 / 逻辑 / 科学问题
Assistant:
<think>
我先理解题意……
这里有两个约束……
尝试方法 A……发现不行……
换成方法 B……
检查边界条件……
</think>
<answer>
最终答案是……
</answer>

它教模型的是:

  • 什么时候不要直接答;
  • 如何展开长推理;
  • 如何分解问题;
  • 如何列中间变量;
  • 如何做自检;
  • 如何发现错误并修正;
  • 如何在最后压缩成答案;
  • 如何把显式 thinking 和 final answer 分开。

所以最本质的差别是:

维度传统 instruction/chat SFTthink/reasoning SFT
学习对象回答分布推理轨迹 + 最终答案分布
典型样本instruction → responseproblem → long reasoning trace → answer
主要目标听话、有帮助、安全、自然会展开计算、会验证、会反思、会控制思考
训练信号人类/模型示范回答强 teacher long-CoT、RL 轨迹、筛选后的推理过程
常用过滤偏好评分、质量筛选答案验证、单元测试、verifier、PRM/ORM、拒绝采样
推理时特征一次生成回答thinking mode、reasoning budget、budget forcing、best-of-N
风险幻觉、过度拒绝、风格模板化伪推理、错误 CoT 污染、overthinking、教师依赖

换句话说:

普通 SFT 是让模型像助手;think SFT 是让模型像一个会把草稿纸写出来的解题者。

但注意:它“像会思考”不等于它真的学到了最优推理算法。这正是后面要分析的核心问题。


#1. 为什么 think SFT 会成为新问题?

#1.1 早期 instruction tuning 已经解决不了 reasoning model 的核心矛盾

FLAN、T0、InstructGPT、Alpaca、LIMA 这条线解决的是:

预训练模型如何变成能听懂自然语言指令的助手?

但 reasoning model 面临的问题是:

模型遇到难题时,如何花更多 test-time compute 得到更好的答案?

这不是简单“回答更有礼貌”或“格式更像 ChatGPT”能解决的。

对于数学、代码、科学推理、复杂规划、Agent 长任务,模型需要做的是:

  • 多步推导;
  • 中间状态保持;
  • 分支尝试;
  • 自我检查;
  • 工具调用;
  • 失败恢复;
  • 动态决定是否继续思考。

这就让 SFT 的对象从“最终回答”变成“整个推理过程”。

#1.2 R1 / o1-style 模型让大家意识到:推理时计算是新 scaling 轴

传统 scaling 主要是:

更多参数 + 更多预训练数据 + 更多训练 compute

reasoning model 加入了新的轴:

更多思考 token + 更多采样路径 + 更多 verifier + 更多工具交互 + 更多搜索

SFT 要服务这个新范式,就不能只教 answer style,而要教模型如何使用“思考预算”。


#2. 从优化目标看:think SFT 本质上仍是 imitation learning

这一点很重要。

SFT 的目标函数仍然是 next-token prediction:

最大化 teacher trace 中每个 token 的概率

也就是说,给定问题和前面已经生成的 reasoning tokens,模型学习预测下一个 token。

所以 think SFT 直接优化的是:

p(reasoning trace, final answer | problem)

而不是直接优化:

answer correctness
search efficiency
true causal reasoning quality

这导致一个根本张力:

think SFT 看起来是在教模型思考,但训练信号本质上是模仿教师写出来的思考文本。

它没有天然知道:

  • 哪一步推理真的关键;
  • 哪一步只是教师口癖;
  • 哪个分支本来应该探索但没有探索;
  • 为什么教师在这里停止;
  • 是否存在更短、更好、更稳的解法;
  • 中间步骤是否忠实反映模型内部计算。

所以,think SFT 可以带来能力提升,但它不是万能的“推理算法学习”。


#3. 那为什么少量高质量 think 数据会有效?

s1、LIMO、Sky-T1 等工作都指向一个现象:reasoning SFT 不一定需要海量数据,小量高质量 long-CoT 也可能显著提升。

这背后有几个原因。

#3.1 基础模型已经有潜在推理能力

大模型预训练中已经见过大量:

  • 数学解题;
  • 代码调试;
  • StackOverflow;
  • 竞赛题解析;
  • 教材推导;
  • 论文证明;
  • 科学问答;
  • 人类讨论和纠错过程。

所以 think SFT 不是从零教智能,而更像是:

把预训练中已有的隐式能力,重新路由到显式 reasoning mode

这和 LIMA 的 “superficial alignment” 有点类似:少量高质量样本可能足以改变模型的交互模式。

#3.2 一条好的 reasoning trace 是高密度监督

一个普通回答可能只告诉模型“答案是什么”。

一条高质量 reasoning trace 会告诉模型:

  • 如何理解题目;
  • 哪些条件重要;
  • 如何分解;
  • 如何选择方法;
  • 如何检查中间结果;
  • 如何避免常见陷阱;
  • 如何决定最终答案。

这些 token 虽然多,但监督密度也高。

#3.3 think SFT 很大程度上是在教“模式切换”

对于已经很强的模型,关键可能不是注入新知识,而是让它学会:

简单问题:直接答
困难问题:进入 slow thinking / long-CoT 模式

这是一种 policy prior shift。

模型学到:遇到数学/代码/复杂推理任务时,不要急着输出最终答案,而是先把问题放到可计算的 scratchpad 里展开。


#4. 代表工作一:DeepSeek-R1 —— cold-start SFT、RL、rejection sampling、distillation 的组合范式

论文: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

arXiv: 2501.12948

时间: 2025

DeepSeek-R1 是公开 reasoning model 里最重要的参照之一,因为它清楚展示了 SFT 和 RL 在 reasoning model 中各自扮演什么角色。

#4.1 R1-Zero:不做 SFT,直接 RL,会发生什么?

DeepSeek-R1-Zero 从 base model 直接做大规模 RL,没有传统 cold-start SFT。

结果很有意思:

  • 模型涌现 long-CoT;
  • 出现 self-reflection;
  • 会自我验证;
  • 会调整策略;
  • 数学和代码能力明显提升。

这说明:reasoning 行为可以通过可验证 reward 被 RL 激发出来,不一定必须先靠 SFT 教出来。

但 R1-Zero 也有问题:

  • 可读性差;
  • 中英混杂;
  • 输出格式不稳定;
  • 重复;
  • 对用户不友好。

这就引出了 cold-start SFT 的作用。

#4.2 R1:cold-start SFT 的作用不是创造全部 reasoning,而是让 RL 更稳定、更可读

DeepSeek-R1 使用少量 high-quality long-CoT cold-start 数据,让模型先具备较稳定的推理格式和可读性,然后再做 reasoning-oriented RL。

可以把它理解成:

cold-start SFT:给模型一套可读、稳定的 reasoning output protocol
RL:用可验证 reward 推动模型真的提高求解能力
rejection sampling:从强模型/当前模型中筛选高质量轨迹
distillation:把强 reasoning 模型的行为迁移到小模型

这里 SFT 和 RL 的分工很清晰:

阶段主要作用
cold-start SFT格式、可读性、初始 reasoning mode
RLVR / RL激发探索、自验证、答案正确率提升
rejection sampling SFT扩展高质量 reasoning 数据
distillation把大模型 reasoning 行为迁移给小模型
general SFT / alignment恢复通用对话、安全、可用性

#4.3 R1-Distill:think SFT 最直接的形态

DeepSeek-R1-Distill 系列用 R1 生成 reasoning traces,蒸馏到 Qwen / Llama 小模型上。

这就是典型 long-CoT distillation:

强 reasoning teacher → 生成长推理轨迹 → 筛选 → student SFT

它说明小模型可以通过 SFT 学到强模型的 reasoning style 和部分能力。

但这也暴露问题:student 很可能继承 teacher 的错误、风格、冗余和局限。


#5. 代表工作二:STILL-2 / Sky-T1 —— 公开复现 slow-thinking system

#5.1 STILL-2:Imitate, Explore, Self-Improve

论文/报告: Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems

arXiv: 2412.09413

时间: 2024

STILL-2 是较早公开复现 o1-like slow-thinking reasoning system 的工作之一。

它的名字可以概括成三步:

  1. Imitate:用 distilled long-form thought data 做 SFT,让模型进入 slow-thinking 模式;
  2. Explore:对难题生成多条 rollout,筛选正确或高质量轨迹;
  3. Self-Improve:用进一步 SFT / DPO 迭代改进。

它的重要性在于:把 reasoning SFT 看成一个闭环的一部分,而不是一次性微调。

#5.2 Sky-T1:低成本训练 O1-preview-like 模型

项目: Sky-T1: Train your own O1 preview model within $450

时间: 2025

基座: Qwen2.5-32B-Instruct

数据: 约 17K long-CoT 数据,包括 coding、math、science/puzzle 等。

Sky-T1 的意义在于工程层面:它展示了使用公开数据和较低成本,也能训练出具备 slow-thinking 风格的 reasoning 模型。

它说明 think SFT 的门槛正在降低:不一定需要闭源 o1 的全部训练管线,也可以通过 high-quality long-CoT SFT 获得显著效果。

但它也提醒我们:这种模型很大程度上仍是在蒸馏和复现一种 reasoning behavior,而不是从头发现 reasoning 算法。


#6. 代表工作三:s1 —— 1000 条高质量 reasoning traces + budget forcing

论文: s1: Simple test-time scaling

arXiv: 2501.19393

时间: 2025

s1 是理解 think SFT 的关键工作,因为它把问题推到一个极端:

只用约 1000 条高质量 reasoning examples,能不能让模型获得强 reasoning 能力?

s1 使用 s1K 数据,对 Qwen2.5-32B-Instruct 做 SFT,并引入 budget forcing

#6.1 s1K 说明:数据质量和选择比规模更关键

s1 的结论不是“数据越多越好”,而是精选困难、多样、高质量样本可能比大规模低质量数据更有效。

这和 LIMA 很像,但面向 reasoning:

  • LIMA:少量高质量对话样本能做 alignment;
  • s1:少量高质量 reasoning trace 能激活 reasoning mode。

#6.2 budget forcing:SFT 之后还要控制 test-time compute

s1 的另一个关键点是 budget forcing:

  • 如果模型太早停止,就强制继续,例如追加 Wait
  • 如果超过预算,就截断或引导停止。

这说明 reasoning SFT 后,推理时控制仍然重要。

模型不只是“学会思考”,还要学会:

思考多久、什么时候停、是否继续检查

这已经超出传统 SFT 的范围,进入 adaptive test-time compute 的问题。


#7. 代表工作四:LIMO —— Less is More for Reasoning

论文: LIMO: Less is More for Reasoning

arXiv: 2502.03387

时间: 2025

LIMO 进一步强化了“小量高质量 reasoning 数据有效”的观点。它报告使用约 817 条精心筛选的数学 reasoning 样本进行 SFT,在 AIME24、MATH500 等 benchmark 上取得强效果。

#7.1 LIMO 的核心假设

LIMO 提出的直觉可以概括为:

如果基础模型已经在预训练中编码了足够的领域知识,那么复杂 reasoning 能力可以通过少量高质量样例被激活。

这被称为类似 Less-Is-More Reasoning Hypothesis 的观点。

#7.2 它和传统 SFT 的不同

传统 instruction SFT 追求覆盖大量用户任务。

LIMO-style reasoning SFT 更追求:

  • 样本难度;
  • 轨迹质量;
  • 解法代表性;
  • 是否能触发可迁移的 reasoning strategy。

它不像是在收集“用户请求大全”,更像是在挑选“思维范式样板”。

#7.3 局限

少量高质量样本有效,并不意味着 reasoning 已经解决。

它可能只是在特定 benchmark 上激活了已有模式;如果换到 OOD 任务、真实 Agent、开放科学问题、长程代码任务,是否仍然有效,需要更严格验证。


#8. 代表工作五:OpenThoughts / OpenThinker —— 系统研究 reasoning data recipe

论文: OpenThoughts: Data Recipes for Reasoning Models

arXiv: 2506.04178

时间: 2025

OpenThoughts / OpenThinker 的价值在于,它不是只发布一个模型,而是系统研究 reasoning data recipe。

它关注的问题包括:

  • 问题来源怎么选?
  • 难度如何过滤?
  • teacher model 如何选择?
  • 每题采样多少条 trace?
  • 如何用 verifier / rejection sampling 筛选?
  • 数据如何去重?
  • reasoning trace 长度如何控制?
  • 数据 scale 到百万级后是否继续有效?

#8.1 从“模型配方”转向“数据配方”

这类工作说明 think SFT 的关键已经不是一句“拿 CoT 数据 SFT”这么简单,而是完整 pipeline:

problem collection
→ difficulty filtering
→ teacher rollout
→ answer verification
→ process-quality filtering
→ diversity control
→ formatting
→ SFT
→ evaluation
→ iterate

每一步都会影响最终模型。

#8.2 对研究的意义

OpenThoughts 这类工作把 reasoning SFT 从“经验炼丹”推进到“controlled experiments”。这对研究者非常重要,因为它让我们能问:

  • 是题目难度重要,还是 trace 长度重要?
  • 是 teacher 强度重要,还是多样性重要?
  • 是最终答案过滤就够,还是需要过程过滤?
  • 数据量 scaling 何时失效?
  • 小模型和大模型需要的数据是否不同?

#9. 代表工作六:Qwen3 —— thinking / non-thinking 融合到一个模型

论文: Qwen3 Technical Report

arXiv: 2505.09388

时间: 2025

Qwen3 是开源体系中一个很好的例子,因为它不是只训练一个永远长思考的模型,而是把 thinking mode 和 non-thinking mode 融合到统一模型里。

公开资料中,Qwen3 支持类似:

  • enable_thinking=True/False
  • /think/no_think
  • thinking budget;
  • thinking 与 non-thinking 数据混合训练。

#9.1 为什么这很重要?

因为 reasoning model 的一个现实问题是 overthinking。

简单问题不需要长 CoT:

2+3=?

如果模型写 1000 token 思考,不仅浪费,还可能把正确答案想错。

所以新一代 think 模型不是永远 think,而是要学会:

什么时候 think,什么时候 no-think

#9.2 这让 SFT 变成 mode-conditioned training

Qwen3-style 训练不只是:

problem -> long-CoT -> answer

还要包含:

simple instruction -> direct answer
hard problem -> thinking trace -> answer
user says /no_think -> concise answer
user says /think -> expanded reasoning

这意味着 SFT 数据需要显式覆盖不同 reasoning modes。

这和传统 chat SFT 差异很大:传统 SFT 通常不把“推理预算控制”当成核心训练目标。


#10. think SFT 的主要技术路线分类

#10.1 Long-CoT distillation

最常见路线:用强 teacher 生成 long-CoT,再 SFT student。

DeepSeek-R1 / QwQ / Gemini Thinking / o1-like teacher
→ generate traces
→ verify/filter
→ student SFT

优点:

  • 简单直接;
  • 对小模型提升明显;
  • 可快速复现 reasoning style。

缺点:

  • teacher 依赖强;
  • 错误和风格会继承;
  • 很难超越 teacher;
  • CoT 忠实性存疑。

#10.2 Rejection sampling SFT

对每个问题采样多条 reasoning trace,用答案匹配、单元测试、verifier 筛选正确轨迹。

优点:

  • 降低错误样本污染;
  • 能从模型自身挖掘高质量轨迹;
  • 适合数学、代码等可验证任务。

缺点:

  • 最终答案正确不代表过程正确;
  • 会偏向可验证任务;
  • 可能保留“碰巧对”的错误过程。

#10.3 Process-supervised SFT

不只看最终答案,还监督中间步骤,或训练模型生成 critique / correction。

相关于:

  • process reward model;
  • step-level verifier;
  • Let’s Verify Step by Step;
  • critique / self-correction traces;
  • trajectory-aware supervision。

优点:

  • 更接近真正推理过程;
  • 有助于过滤错误中间步骤。

缺点:

  • 步骤级标注昂贵;
  • “中间步骤正确”很难定义;
  • verifier 也可能被模型 hack。

#10.4 Budget-conditioned SFT

训练模型在不同预算下输出不同长度和深度的思考。

例如:

low budget: concise reasoning
medium budget: standard CoT
high budget: detailed verification
no-think: direct answer

优点:

  • 解决 overthinking;
  • 服务产品中的 low/medium/high reasoning effort;
  • 更适合真实部署。

缺点:

  • 需要高质量预算标注;
  • 如何判断任务难度仍难;
  • 固定预算不等于自适应预算。

#10.5 Search-trace / backtracking SFT

不是只给 clean solution,而是给搜索过程:尝试、失败、回退、换策略。

相关工作包括 Stream of Search、Self-Backtracking 等。

优点:

  • 教模型搜索,而不是只背最优路径;
  • 错误和恢复过程可能有训练价值。

缺点:

  • 错误本身没有价值,有价值的是可诊断、可恢复、能暴露搜索结构的错误;
  • 固定 DFS / 回退格式可能让模型学到僵硬策略;
  • 不同任务对 backtracking 的需求差异很大。

#11. think SFT 和 RLVR/RL 的关系:不是替代,而是互补

#11.1 SFT:初始化行为先验

SFT 让模型知道:

  • 应该写步骤;
  • 应该分解问题;
  • 应该检查答案;
  • 应该用某种格式输出;
  • 遇到难题不要急着答。

它提供一个合理初始策略。

#11.2 RLVR:用可验证 reward 优化结果

RLVR 关注:

  • 数学答案是否正确;
  • 代码是否通过测试;
  • 工具任务是否完成;
  • structured output 是否匹配;
  • theorem proving 是否成功。

它不要求模型模仿某条教师轨迹,而是奖励最终结果。

这能补足 SFT 的短板:SFT 模仿已有轨迹,RL 有机会探索新策略。

#11.3 Verifier:连接 SFT 和 RL 的桥

Verifier 可以用于:

  • 过滤 SFT 数据;
  • 对多条 trace 排序;
  • 作为 RL reward;
  • test-time best-of-N;
  • process supervision。

强 reasoning system 往往不是单独一个 SFT 模型,而是:

policy model + verifier + search + RL/self-improvement loop

#12. think SFT 的局限:为什么它可能到顶?

#12.1 CoT 忠实性问题

模型输出的 reasoning trace 不一定是它真正得到答案的因果过程。

它可能:

  • 先隐式知道答案,再生成合理解释;
  • 写出看似严谨但无效的推导;
  • 为错误答案编造理由;
  • 在训练中学到“解释腔”。

这会影响过程监督和可解释性。

#12.2 错误过程污染

如果训练数据中有错误推理,即使最终答案正确,也会被 SFT 学进去。

这在数学里很危险:

错误推导 → 碰巧答案对 → 被答案过滤保留 → 污染模型

所以仅靠 final answer filtering 不够,需要 process-level verification。

#12.3 Overthinking

reasoning SFT 容易让模型对简单题也长篇大论。

这会导致:

  • 成本高;
  • 延迟高;
  • 用户体验差;
  • 简单题反而出错;
  • 模型在无意义反思中漂移。

这也是 s1 budget forcing、Qwen3 thinking/no-thinking、Reasoning on a Budget 等方向出现的原因。

#12.4 缺少探索和 credit assignment

SFT 不知道哪一步真正有价值。它给所有 token 类似监督:关键步骤、冗余解释、教师口癖、错误中间结论,都被当作要拟合的 token。

而真正 reasoning 需要:

  • 尝试多个分支;
  • 判断分支价值;
  • 回溯;
  • 调整策略;
  • 学习何时停止;
  • 根据失败反馈更新。

这些更像 RL / search / planning。

#12.5 Teacher 依赖

很多 open reasoning 模型本质是 teacher distillation。

这意味着:

  • 容易继承 teacher 偏差;
  • 难突破 teacher 上限;
  • 数据许可和透明性有问题;
  • 学到的是 teacher 的风格,不一定是普适推理机制。

#13. 和 latent reasoning 的关系:显式 <think> 可能只是过渡形态

显式 CoT 的优点是:

  • 可训练;
  • 可读;
  • 可筛选;
  • 可用 verifier 检查;
  • 可作为 SFT 数据。

但它也有缺点:

  • token 成本高;
  • 语言空间低效;
  • 未必忠实;
  • 可能泄露不该暴露的推理;
  • 容易变成模板化表演。

未来一个重要方向是:

visible CoT as bootstrap → hidden / latent reasoning as efficient computation

可能路线包括:

  1. 用 visible CoT teacher 训练 student,但推理时只输出答案;
  2. 使用 hidden scratchpad tokens;
  3. recurrent latent computation;
  4. compress CoT into dense latent states;
  5. 简单任务 latent/no-think,困难任务 visible think;
  6. 用 verifier 判断 latent computation 是否真的提升。

对 wenjun 关注的潜空间推理来说,think SFT 是一个很自然的 bootstrap:先用外显轨迹教模型“什么叫思考”,再研究如何把这种思考压缩进 latent state。


#14. 和 Agent trajectory training 的关系

think trace 可以看成一种单轮 mental trajectory:

problem → thought → answer

Agent 轨迹则是:

observation → thought → action → observation → thought → action → ... → result

两者本质上都是轨迹学习。

但 Agent 更难,因为它有真实环境反馈和副作用:

  • 工具调用;
  • 文件修改;
  • 网页操作;
  • 代码执行;
  • 任务失败恢复;
  • prompt injection;
  • 长程状态管理。

普通 think SFT 的局限在 Agent 中会被放大:

  • 只模仿成功轨迹,不知道失败后怎么办;
  • 不知道动作代价;
  • 没有 exposure correction;
  • 不知道何时询问用户;
  • 缺少 long-horizon credit assignment。

所以 Agent 方向最终需要:

trajectory SFT + process reward + environment feedback + online RL + model-based planning

这和 wenjun 关注的 model-based RL for LLM Agent 是高度相关的。


#15. 一个统一框架:think SFT 在训练栈中的位置

可以把 reasoning model 训练栈理解成:

Pretraining
  学语言、知识、代码、数学、隐含任务模式

Instruction SFT
  学会按用户指令回答,形成 assistant interface

Reasoning / Think SFT
  学会显式推理轨迹,初始化 slow-thinking behavior prior

Verifier / PRM / ORM
  学会评价结果或中间过程

RLVR / RL
  用可验证 reward 优化答案正确率和探索策略

Rejection Sampling / Self-Improvement
  生成更多轨迹,筛选,再 SFT / DPO / RL

Test-time Compute / Search
  推理时采样、验证、回溯、预算控制

Latent Reasoning
  把显式推理压缩成更高效的内部计算

Agent Trajectory Training
  把 reasoning 扩展到环境交互和长程行动

所以 think SFT 不是终点,而是 bootstrap。

它的关键作用是:

  • 给模型一个 reasoning mode;
  • 给 RL 一个好初始化;
  • 给 verifier/search 一个候选生成器;
  • 给小模型一个蒸馏路径;
  • 给 latent reasoning 一个可监督的外显教师;
  • 给 Agent 一个初始 mental trajectory 格式。

#16. 当前专门研究 think SFT 的代表工作速览

工作时间核心问题SFT 相关要点
DeepSeek-R12025RL 如何激发 reasoningcold-start long-CoT SFT 稳定可读性;RL 后 rejection sampling;R1-Distill 进行 long-CoT 蒸馏
STILL-22024如何复现 slow-thinking systemimitate long-form thought data,再 explore/self-improve
Sky-T12025低成本训练 o1-preview-like model约 17K long-CoT SFT,基于 Qwen2.5-32B-Instruct
s12025简单 test-time scaling1K 高质量 reasoning traces + budget forcing
LIMO2025reasoning 是否也 less is more817 条 curated reasoning samples 激活推理能力
OpenThoughts2025reasoning data recipe 如何设计系统研究数据来源、teacher、采样、过滤、scaling curves
Qwen32025thinking / non-thinking 如何统一long-CoT cold-start、reasoning RL、混合 thinking/non-thinking SFT、thinking budget
Stream of Search / Backtracking 线2024–2025错误/回退轨迹是否有价值从 clean solution SFT 转向 search trace / backtracking trace 学习

#17. 我对这个方向的研究判断

#17.1 think SFT 的价值是真实的,但不是因为它“直接教会推理算法”

它有效,主要因为:

  1. 基础模型已有潜在能力;
  2. 高质量 long-CoT 提供强行为模板;
  3. SFT 改变模型的 mode;
  4. 显式 scratchpad 提供更多 test-time computation;
  5. SFT 给后续 RL/search/verifier 一个可用初始化。

#17.2 think SFT 的上限也很清楚

它的直接目标是 teacher trace likelihood,不是 outcome optimality。

所以它会遇到:

  • rationale imitation;
  • teacher dependence;
  • CoT unfaithfulness;
  • overthinking;
  • 缺少探索;
  • 缺少 credit assignment;
  • 对 Agent 长程任务不够。

#17.3 真正下一阶段不是“更多长 CoT”,而是“可控、可验证、可压缩的思考”

我认为后续最重要的问题不是让模型写更长 <think>,而是:

  • 什么样的 reasoning trace 真有用?
  • 如何验证中间过程?
  • 如何学会搜索而不是背诵 clean solution?
  • 如何决定 think / no-think?
  • 如何把显式思考压缩到 latent space?
  • 如何在 Agent 环境里学习失败恢复和长程 credit assignment?
  • 如何用 model-based RL 学 transition/value,而不只是 imitation policy?

#18. 对 wenjun 可能值得做的研究方向

#18.1 Trace quality attribution:哪些 reasoning tokens 真有因果价值?

可以做:

  • 删除某些 reasoning steps,看答案是否变化;
  • 替换中间步骤,看最终是否受影响;
  • 比较 clean solution、verbose CoT、search trace、backtracking trace;
  • 做数据归因:哪些样本带来哪些能力提升。

目标是从“好看的推理”转向“可验证有效的推理”。

#18.2 Agent-style reasoning SFT:从 mental trace 到 action trace

把 think SFT 扩展到 Agent:

state → thought → action → observation → reflection → next action

重点不是单步答案,而是:

  • 是否正确调用工具;
  • 是否验证结果;
  • 是否恢复错误;
  • 是否避免越权;
  • 是否保持用户目标;
  • 是否抵抗 prompt injection。

#18.3 Model-based reasoning:学习推理状态转移和值函数

普通 SFT 只学 policy imitation。

更基础的问题是:模型能否学习:

  • 当前解题状态是什么;
  • 做某个推理步骤后状态如何变化;
  • 当前路径成功概率多高;
  • 哪个分支值得探索;
  • 什么时候停止。

这就是把 reasoning model 推向 model-based RL / world model 的方向。

#18.4 Latent think distillation:把外显 CoT 压缩成内部计算

可研究:

  • visible CoT teacher → hidden-state student;
  • compressed CoT;
  • learned latent scratchpad;
  • recurrent depth;
  • final answer without visible CoT;
  • 什么时候需要暴露推理,什么时候隐藏。

这直接连接潜空间推理。

#18.5 Budget controller:学会何时思考、思考多久

可以设计 benchmark:

  • 简单题直接答;
  • 中等题短 CoT;
  • 难题长 CoT + verifier;
  • Agent 长任务中动态分配检索、计划、工具、测试、回滚预算。

这比单纯 reasoning accuracy 更接近真实系统。


#19. 总结

目前 think / reasoning 模型的 SFT 和传统 SFT 的区别,可以压缩成一句话:

传统 SFT 教模型“如何作为助手回答”;think SFT 教模型“如何把问题转化为一段可展开、可监督、可蒸馏、可验证的计算轨迹”。

它带来了新的训练范式:

long-CoT distillation
+ cold-start SFT
+ rejection sampling
+ process filtering
+ budget-conditioned SFT
+ thinking / no-thinking mode
+ RLVR / verifier / self-improvement

但它也有新的核心矛盾:

模仿 teacher trace ≠ 学到真实推理算法
更长 thinking ≠ 更有效 reasoning
可读 CoT ≠ 忠实内部计算
正确 final answer ≠ 正确 reasoning process

我的最终判断是:

think SFT 是 reasoning model 的重要 bootstrap,但不是最终答案。它的真正价值在于给模型一个可操作的 slow-thinking 行为先验,让后续 RL、verifier、search、latent reasoning 和 Agent trajectory learning 有东西可以优化、筛选和压缩。

对未来研究来说,最有价值的不是继续堆更多长 CoT,而是研究:

  • 哪些思考有用;
  • 如何验证思考;
  • 如何学会搜索;
  • 如何控制预算;
  • 如何从显式 CoT 走向潜空间推理;
  • 如何把单轮 think trace 扩展成长期 Agent 的行动轨迹。

这条线很可能会成为 LLM Agent、代码智能、model-based RL 和基础模型后训练交汇处的核心问题之一。


#参考锚点

  • DeepSeek-AI, DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, arXiv:2501.12948, 2025.
  • Muennighoff et al., s1: Simple test-time scaling, arXiv:2501.19393, 2025.
  • Ye et al., LIMO: Less is More for Reasoning, arXiv:2502.03387, 2025.
  • Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems, arXiv:2412.09413, 2024.
  • NovaSky-AI, Sky-T1: Train your own O1 preview model within $450, 2025.
  • OpenThoughts Team, OpenThoughts: Data Recipes for Reasoning Models, arXiv:2506.04178, 2025.
  • Qwen Team, Qwen3 Technical Report, arXiv:2505.09388, 2025.
  • Wei et al., Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, arXiv:2201.11903, 2022.
  • Kojima et al., Large Language Models are Zero-Shot Reasoners, arXiv:2205.11916, 2022.
  • Wang et al., Self-Consistency Improves Chain of Thought Reasoning in Language Models, arXiv:2203.11171, 2022.
  • Lightman et al., Let’s Verify Step by Step, arXiv:2305.20050, 2023.
  • Gandhi et al., Stream of Search, arXiv:2404.03683, 2024.
  • Snell et al., Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters, arXiv:2408.03314, 2024.
  • Research survey anchors: Reasoning on a Budget, Budget Guidance, Continue-Thinking Token, ThinkDial, Plan-and-Budget, Compressed Chain-of-Thought, Adaptive Graph of Thoughts.