主题归档 2026-06-15 ★★★★★ LLM reasoning model think model SFT long-CoT RLVR distillation

#Think / Reasoning 模型的 SFT：和传统指令微调有什么不同？

一句话核心结论： 传统 instruction SFT 主要是在教模型“按用户指令给出一个好回答”；think / reasoning 模型的 SFT 则是在教模型“进入一种可展开的计算模式”：先分析、分解、尝试、验证、必要时反思或回退，最后再给答案。它更像对基础模型进行 reasoning behavior prior initialization：用显式推理轨迹初始化一种行为先验，为后续 RLVR、verifier、test-time search、budget control 和 latent reasoning 打基础。

用户问的核心其实非常关键：

现在这些带 <think>、长 CoT、reasoning_content、thinking mode 的模型，SFT 和以前 instruct/chat SFT 到底有什么不一样？有没有专门研究 think 模型 SFT 的工作？

答案是：有，而且 2024–2026 这条线正在快速成形。

代表工作包括：

DeepSeek-R1 / R1-Zero / R1-Distill；
STILL-2 / slow-thinking reproduction；
Sky-T1；
s1 / s1K / budget forcing；
LIMO；
OpenThoughts / OpenThinker；
Qwen3 thinking / non-thinking unified model；
以及 long-CoT distillation、rejection sampling SFT、process-supervised SFT、budget-conditioned SFT 等一系列方法。

这篇文章按“问题链”来梳理。

#0. 先说人话：以前 SFT 教模型“怎么答”，现在 think SFT 教模型“怎么想出来”

传统 chat / instruction SFT 的训练样本大致是：

User: 帮我总结这篇文章
Assistant: 这篇文章主要讲了……

它教模型的是：

看懂用户指令；
给出符合人类偏好的回答；
语气自然；
格式合理；
不乱拒答；
不输出危险内容；
遵循基本对话规范。

而 think / reasoning SFT 的样本更像：

Problem: 一道数学 / 代码 / 逻辑 / 科学问题
Assistant:
<think>
我先理解题意……
这里有两个约束……
尝试方法 A……发现不行……
换成方法 B……
检查边界条件……
</think>
<answer>
最终答案是……
</answer>

它教模型的是：

什么时候不要直接答；
如何展开长推理；
如何分解问题；
如何列中间变量；
如何做自检；
如何发现错误并修正；
如何在最后压缩成答案；
如何把显式 thinking 和 final answer 分开。

所以最本质的差别是：

维度	传统 instruction/chat SFT	think/reasoning SFT
学习对象	回答分布	推理轨迹 + 最终答案分布
典型样本	instruction → response	problem → long reasoning trace → answer
主要目标	听话、有帮助、安全、自然	会展开计算、会验证、会反思、会控制思考
训练信号	人类/模型示范回答	强 teacher long-CoT、RL 轨迹、筛选后的推理过程
常用过滤	偏好评分、质量筛选	答案验证、单元测试、verifier、PRM/ORM、拒绝采样
推理时特征	一次生成回答	thinking mode、reasoning budget、budget forcing、best-of-N
风险	幻觉、过度拒绝、风格模板化	伪推理、错误 CoT 污染、overthinking、教师依赖

换句话说：

普通 SFT 是让模型像助手；think SFT 是让模型像一个会把草稿纸写出来的解题者。

但注意：它“像会思考”不等于它真的学到了最优推理算法。这正是后面要分析的核心问题。

#1. 为什么 think SFT 会成为新问题？

#1.1 早期 instruction tuning 已经解决不了 reasoning model 的核心矛盾

FLAN、T0、InstructGPT、Alpaca、LIMA 这条线解决的是：

预训练模型如何变成能听懂自然语言指令的助手？

但 reasoning model 面临的问题是：

模型遇到难题时，如何花更多 test-time compute 得到更好的答案？

这不是简单“回答更有礼貌”或“格式更像 ChatGPT”能解决的。

对于数学、代码、科学推理、复杂规划、Agent 长任务，模型需要做的是：

多步推导；
中间状态保持；
分支尝试；
自我检查；
工具调用；
失败恢复；
动态决定是否继续思考。

这就让 SFT 的对象从“最终回答”变成“整个推理过程”。

#1.2 R1 / o1-style 模型让大家意识到：推理时计算是新 scaling 轴

传统 scaling 主要是：

更多参数 + 更多预训练数据 + 更多训练 compute

reasoning model 加入了新的轴：

更多思考 token + 更多采样路径 + 更多 verifier + 更多工具交互 + 更多搜索

SFT 要服务这个新范式，就不能只教 answer style，而要教模型如何使用“思考预算”。

#2. 从优化目标看：think SFT 本质上仍是 imitation learning

这一点很重要。

SFT 的目标函数仍然是 next-token prediction：

最大化 teacher trace 中每个 token 的概率

也就是说，给定问题和前面已经生成的 reasoning tokens，模型学习预测下一个 token。

所以 think SFT 直接优化的是：

p(reasoning trace, final answer | problem)

而不是直接优化：

answer correctness
search efficiency
true causal reasoning quality

这导致一个根本张力：

think SFT 看起来是在教模型思考，但训练信号本质上是模仿教师写出来的思考文本。

它没有天然知道：

哪一步推理真的关键；
哪一步只是教师口癖；
哪个分支本来应该探索但没有探索；
为什么教师在这里停止；
是否存在更短、更好、更稳的解法；
中间步骤是否忠实反映模型内部计算。

所以，think SFT 可以带来能力提升，但它不是万能的“推理算法学习”。

#3. 那为什么少量高质量 think 数据会有效？

s1、LIMO、Sky-T1 等工作都指向一个现象：reasoning SFT 不一定需要海量数据，小量高质量 long-CoT 也可能显著提升。

这背后有几个原因。

#3.1 基础模型已经有潜在推理能力

大模型预训练中已经见过大量：

数学解题；
代码调试；
StackOverflow；
竞赛题解析；
教材推导；
论文证明；
科学问答；
人类讨论和纠错过程。

所以 think SFT 不是从零教智能，而更像是：

把预训练中已有的隐式能力，重新路由到显式 reasoning mode

这和 LIMA 的 “superficial alignment” 有点类似：少量高质量样本可能足以改变模型的交互模式。

#3.2 一条好的 reasoning trace 是高密度监督

一个普通回答可能只告诉模型“答案是什么”。

一条高质量 reasoning trace 会告诉模型：

如何理解题目；
哪些条件重要；
如何分解；
如何选择方法；
如何检查中间结果；
如何避免常见陷阱；
如何决定最终答案。

这些 token 虽然多，但监督密度也高。

#3.3 think SFT 很大程度上是在教“模式切换”

对于已经很强的模型，关键可能不是注入新知识，而是让它学会：

简单问题：直接答
困难问题：进入 slow thinking / long-CoT 模式

这是一种 policy prior shift。

模型学到：遇到数学/代码/复杂推理任务时，不要急着输出最终答案，而是先把问题放到可计算的 scratchpad 里展开。

#4. 代表工作一：DeepSeek-R1 —— cold-start SFT、RL、rejection sampling、distillation 的组合范式

论文： DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

arXiv： 2501.12948

时间： 2025

DeepSeek-R1 是公开 reasoning model 里最重要的参照之一，因为它清楚展示了 SFT 和 RL 在 reasoning model 中各自扮演什么角色。

#4.1 R1-Zero：不做 SFT，直接 RL，会发生什么？

DeepSeek-R1-Zero 从 base model 直接做大规模 RL，没有传统 cold-start SFT。

结果很有意思：

模型涌现 long-CoT；
出现 self-reflection；
会自我验证；
会调整策略；
数学和代码能力明显提升。

这说明：reasoning 行为可以通过可验证 reward 被 RL 激发出来，不一定必须先靠 SFT 教出来。

但 R1-Zero 也有问题：

可读性差；
中英混杂；
输出格式不稳定；
重复；
对用户不友好。

这就引出了 cold-start SFT 的作用。

#4.2 R1：cold-start SFT 的作用不是创造全部 reasoning，而是让 RL 更稳定、更可读

DeepSeek-R1 使用少量 high-quality long-CoT cold-start 数据，让模型先具备较稳定的推理格式和可读性，然后再做 reasoning-oriented RL。

可以把它理解成：

cold-start SFT：给模型一套可读、稳定的 reasoning output protocol
RL：用可验证 reward 推动模型真的提高求解能力
rejection sampling：从强模型/当前模型中筛选高质量轨迹
distillation：把强 reasoning 模型的行为迁移到小模型

这里 SFT 和 RL 的分工很清晰：

阶段	主要作用
cold-start SFT	格式、可读性、初始 reasoning mode
RLVR / RL	激发探索、自验证、答案正确率提升
rejection sampling SFT	扩展高质量 reasoning 数据
distillation	把大模型 reasoning 行为迁移给小模型
general SFT / alignment	恢复通用对话、安全、可用性

#4.3 R1-Distill：think SFT 最直接的形态

DeepSeek-R1-Distill 系列用 R1 生成 reasoning traces，蒸馏到 Qwen / Llama 小模型上。

这就是典型 long-CoT distillation：

强 reasoning teacher → 生成长推理轨迹 → 筛选 → student SFT

它说明小模型可以通过 SFT 学到强模型的 reasoning style 和部分能力。

但这也暴露问题：student 很可能继承 teacher 的错误、风格、冗余和局限。

#5. 代表工作二：STILL-2 / Sky-T1 —— 公开复现 slow-thinking system

#5.1 STILL-2：Imitate, Explore, Self-Improve

论文/报告： Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems

arXiv： 2412.09413

时间： 2024

STILL-2 是较早公开复现 o1-like slow-thinking reasoning system 的工作之一。

它的名字可以概括成三步：

Imitate：用 distilled long-form thought data 做 SFT，让模型进入 slow-thinking 模式；
Explore：对难题生成多条 rollout，筛选正确或高质量轨迹；
Self-Improve：用进一步 SFT / DPO 迭代改进。

它的重要性在于：把 reasoning SFT 看成一个闭环的一部分，而不是一次性微调。

#5.2 Sky-T1：低成本训练 O1-preview-like 模型

项目： Sky-T1: Train your own O1 preview model within $450

时间： 2025

基座： Qwen2.5-32B-Instruct

数据： 约 17K long-CoT 数据，包括 coding、math、science/puzzle 等。

Sky-T1 的意义在于工程层面：它展示了使用公开数据和较低成本，也能训练出具备 slow-thinking 风格的 reasoning 模型。

它说明 think SFT 的门槛正在降低：不一定需要闭源 o1 的全部训练管线，也可以通过 high-quality long-CoT SFT 获得显著效果。

但它也提醒我们：这种模型很大程度上仍是在蒸馏和复现一种 reasoning behavior，而不是从头发现 reasoning 算法。

#6. 代表工作三：s1 —— 1000 条高质量 reasoning traces + budget forcing

论文： s1: Simple test-time scaling

arXiv： 2501.19393

时间： 2025

s1 是理解 think SFT 的关键工作，因为它把问题推到一个极端：

只用约 1000 条高质量 reasoning examples，能不能让模型获得强 reasoning 能力？

s1 使用 s1K 数据，对 Qwen2.5-32B-Instruct 做 SFT，并引入 budget forcing。

#6.1 s1K 说明：数据质量和选择比规模更关键

s1 的结论不是“数据越多越好”，而是精选困难、多样、高质量样本可能比大规模低质量数据更有效。

这和 LIMA 很像，但面向 reasoning：

LIMA：少量高质量对话样本能做 alignment；
s1：少量高质量 reasoning trace 能激活 reasoning mode。

#6.2 budget forcing：SFT 之后还要控制 test-time compute

s1 的另一个关键点是 budget forcing：

如果模型太早停止，就强制继续，例如追加 Wait；
如果超过预算，就截断或引导停止。

这说明 reasoning SFT 后，推理时控制仍然重要。

模型不只是“学会思考”，还要学会：

思考多久、什么时候停、是否继续检查

这已经超出传统 SFT 的范围，进入 adaptive test-time compute 的问题。

#7. 代表工作四：LIMO —— Less is More for Reasoning

论文： LIMO: Less is More for Reasoning

arXiv： 2502.03387

时间： 2025

LIMO 进一步强化了“小量高质量 reasoning 数据有效”的观点。它报告使用约 817 条精心筛选的数学 reasoning 样本进行 SFT，在 AIME24、MATH500 等 benchmark 上取得强效果。

#7.1 LIMO 的核心假设

LIMO 提出的直觉可以概括为：

如果基础模型已经在预训练中编码了足够的领域知识，那么复杂 reasoning 能力可以通过少量高质量样例被激活。

这被称为类似 Less-Is-More Reasoning Hypothesis 的观点。

#7.2 它和传统 SFT 的不同

传统 instruction SFT 追求覆盖大量用户任务。

LIMO-style reasoning SFT 更追求：

样本难度；
轨迹质量；
解法代表性；
是否能触发可迁移的 reasoning strategy。

它不像是在收集“用户请求大全”，更像是在挑选“思维范式样板”。

#7.3 局限

少量高质量样本有效，并不意味着 reasoning 已经解决。

它可能只是在特定 benchmark 上激活了已有模式；如果换到 OOD 任务、真实 Agent、开放科学问题、长程代码任务，是否仍然有效，需要更严格验证。

#8. 代表工作五：OpenThoughts / OpenThinker —— 系统研究 reasoning data recipe

论文： OpenThoughts: Data Recipes for Reasoning Models

arXiv： 2506.04178

时间： 2025

OpenThoughts / OpenThinker 的价值在于，它不是只发布一个模型，而是系统研究 reasoning data recipe。

它关注的问题包括：

问题来源怎么选？
难度如何过滤？
teacher model 如何选择？
每题采样多少条 trace？
如何用 verifier / rejection sampling 筛选？
数据如何去重？
reasoning trace 长度如何控制？
数据 scale 到百万级后是否继续有效？

#8.1 从“模型配方”转向“数据配方”

这类工作说明 think SFT 的关键已经不是一句“拿 CoT 数据 SFT”这么简单，而是完整 pipeline：

problem collection
→ difficulty filtering
→ teacher rollout
→ answer verification
→ process-quality filtering
→ diversity control
→ formatting
→ SFT
→ evaluation
→ iterate

每一步都会影响最终模型。

#8.2 对研究的意义

OpenThoughts 这类工作把 reasoning SFT 从“经验炼丹”推进到“controlled experiments”。这对研究者非常重要，因为它让我们能问：

是题目难度重要，还是 trace 长度重要？
是 teacher 强度重要，还是多样性重要？
是最终答案过滤就够，还是需要过程过滤？
数据量 scaling 何时失效？
小模型和大模型需要的数据是否不同？

#9. 代表工作六：Qwen3 —— thinking / non-thinking 融合到一个模型

论文： Qwen3 Technical Report

arXiv： 2505.09388

时间： 2025

Qwen3 是开源体系中一个很好的例子，因为它不是只训练一个永远长思考的模型，而是把 thinking mode 和 non-thinking mode 融合到统一模型里。

公开资料中，Qwen3 支持类似：

enable_thinking=True/False；
/think、/no_think；
thinking budget；
thinking 与 non-thinking 数据混合训练。

#9.1 为什么这很重要？

因为 reasoning model 的一个现实问题是 overthinking。

简单问题不需要长 CoT：

2+3=?

如果模型写 1000 token 思考，不仅浪费，还可能把正确答案想错。

所以新一代 think 模型不是永远 think，而是要学会：

什么时候 think，什么时候 no-think

#9.2 这让 SFT 变成 mode-conditioned training

Qwen3-style 训练不只是：

problem -> long-CoT -> answer

还要包含：

simple instruction -> direct answer
hard problem -> thinking trace -> answer
user says /no_think -> concise answer
user says /think -> expanded reasoning

这意味着 SFT 数据需要显式覆盖不同 reasoning modes。

这和传统 chat SFT 差异很大：传统 SFT 通常不把“推理预算控制”当成核心训练目标。

#10. think SFT 的主要技术路线分类

#10.1 Long-CoT distillation

最常见路线：用强 teacher 生成 long-CoT，再 SFT student。

DeepSeek-R1 / QwQ / Gemini Thinking / o1-like teacher
→ generate traces
→ verify/filter
→ student SFT

优点：

简单直接；
对小模型提升明显；
可快速复现 reasoning style。

缺点：

teacher 依赖强；
错误和风格会继承；
很难超越 teacher；
CoT 忠实性存疑。

#10.2 Rejection sampling SFT

对每个问题采样多条 reasoning trace，用答案匹配、单元测试、verifier 筛选正确轨迹。

优点：

降低错误样本污染；
能从模型自身挖掘高质量轨迹；
适合数学、代码等可验证任务。

缺点：

最终答案正确不代表过程正确；
会偏向可验证任务；
可能保留“碰巧对”的错误过程。

#10.3 Process-supervised SFT

不只看最终答案，还监督中间步骤，或训练模型生成 critique / correction。

#10.4 Budget-conditioned SFT

训练模型在不同预算下输出不同长度和深度的思考。

例如：

low budget: concise reasoning
medium budget: standard CoT
high budget: detailed verification
no-think: direct answer

优点：

解决 overthinking；
服务产品中的 low/medium/high reasoning effort；
更适合真实部署。

缺点：

需要高质量预算标注；
如何判断任务难度仍难；
固定预算不等于自适应预算。

#10.5 Search-trace / backtracking SFT

不是只给 clean solution，而是给搜索过程：尝试、失败、回退、换策略。

相关工作包括 Stream of Search、Self-Backtracking 等。

优点：

教模型搜索，而不是只背最优路径；
错误和恢复过程可能有训练价值。

缺点：

错误本身没有价值，有价值的是可诊断、可恢复、能暴露搜索结构的错误；
固定 DFS / 回退格式可能让模型学到僵硬策略；
不同任务对 backtracking 的需求差异很大。

#11. think SFT 和 RLVR/RL 的关系：不是替代，而是互补

#11.1 SFT：初始化行为先验

SFT 让模型知道：

应该写步骤；
应该分解问题；
应该检查答案；
应该用某种格式输出；
遇到难题不要急着答。

它提供一个合理初始策略。

#11.2 RLVR：用可验证 reward 优化结果

RLVR 关注：

数学答案是否正确；
代码是否通过测试；
工具任务是否完成；
structured output 是否匹配；
theorem proving 是否成功。

它不要求模型模仿某条教师轨迹，而是奖励最终结果。

这能补足 SFT 的短板：SFT 模仿已有轨迹，RL 有机会探索新策略。

#11.3 Verifier：连接 SFT 和 RL 的桥

Verifier 可以用于：

过滤 SFT 数据；
对多条 trace 排序；
作为 RL reward；
test-time best-of-N；
process supervision。

强 reasoning system 往往不是单独一个 SFT 模型，而是：

policy model + verifier + search + RL/self-improvement loop

#12. think SFT 的局限：为什么它可能到顶？

#12.1 CoT 忠实性问题

模型输出的 reasoning trace 不一定是它真正得到答案的因果过程。

它可能：

先隐式知道答案，再生成合理解释；
写出看似严谨但无效的推导；
为错误答案编造理由；
在训练中学到“解释腔”。

这会影响过程监督和可解释性。

#12.2 错误过程污染

如果训练数据中有错误推理，即使最终答案正确，也会被 SFT 学进去。

这在数学里很危险：

错误推导 → 碰巧答案对 → 被答案过滤保留 → 污染模型

所以仅靠 final answer filtering 不够，需要 process-level verification。

#12.3 Overthinking

reasoning SFT 容易让模型对简单题也长篇大论。

这会导致：

成本高；
延迟高；
用户体验差；
简单题反而出错；
模型在无意义反思中漂移。

这也是 s1 budget forcing、Qwen3 thinking/no-thinking、Reasoning on a Budget 等方向出现的原因。

#12.4 缺少探索和 credit assignment

SFT 不知道哪一步真正有价值。它给所有 token 类似监督：关键步骤、冗余解释、教师口癖、错误中间结论，都被当作要拟合的 token。

而真正 reasoning 需要：

尝试多个分支；
判断分支价值；
回溯；
调整策略；
学习何时停止；
根据失败反馈更新。

这些更像 RL / search / planning。

#12.5 Teacher 依赖

很多 open reasoning 模型本质是 teacher distillation。

这意味着：

容易继承 teacher 偏差；
难突破 teacher 上限；
数据许可和透明性有问题；
学到的是 teacher 的风格，不一定是普适推理机制。

#13. 和 latent reasoning 的关系：显式 `<think>` 可能只是过渡形态

显式 CoT 的优点是：

可训练；
可读；
可筛选；
可用 verifier 检查；
可作为 SFT 数据。

但它也有缺点：

token 成本高；
语言空间低效；
未必忠实；
可能泄露不该暴露的推理；
容易变成模板化表演。

未来一个重要方向是：

visible CoT as bootstrap → hidden / latent reasoning as efficient computation

可能路线包括：

用 visible CoT teacher 训练 student，但推理时只输出答案；
使用 hidden scratchpad tokens；
recurrent latent computation；
compress CoT into dense latent states；
简单任务 latent/no-think，困难任务 visible think；
用 verifier 判断 latent computation 是否真的提升。

对 wenjun 关注的潜空间推理来说，think SFT 是一个很自然的 bootstrap：先用外显轨迹教模型“什么叫思考”，再研究如何把这种思考压缩进 latent state。

#14. 和 Agent trajectory training 的关系

think trace 可以看成一种单轮 mental trajectory：

problem → thought → answer

Agent 轨迹则是：

observation → thought → action → observation → thought → action → ... → result

两者本质上都是轨迹学习。

但 Agent 更难，因为它有真实环境反馈和副作用：

工具调用；
文件修改；
网页操作；
代码执行；
任务失败恢复；
prompt injection；
长程状态管理。

普通 think SFT 的局限在 Agent 中会被放大：

只模仿成功轨迹，不知道失败后怎么办；
不知道动作代价；
没有 exposure correction；
不知道何时询问用户；
缺少 long-horizon credit assignment。

所以 Agent 方向最终需要：

trajectory SFT + process reward + environment feedback + online RL + model-based planning

这和 wenjun 关注的 model-based RL for LLM Agent 是高度相关的。

#15. 一个统一框架：think SFT 在训练栈中的位置

可以把 reasoning model 训练栈理解成：

Pretraining
  学语言、知识、代码、数学、隐含任务模式

Instruction SFT
  学会按用户指令回答，形成 assistant interface

Reasoning / Think SFT
  学会显式推理轨迹，初始化 slow-thinking behavior prior

Verifier / PRM / ORM
  学会评价结果或中间过程

RLVR / RL
  用可验证 reward 优化答案正确率和探索策略

Rejection Sampling / Self-Improvement
  生成更多轨迹，筛选，再 SFT / DPO / RL

Test-time Compute / Search
  推理时采样、验证、回溯、预算控制

Latent Reasoning
  把显式推理压缩成更高效的内部计算

Agent Trajectory Training
  把 reasoning 扩展到环境交互和长程行动

所以 think SFT 不是终点，而是 bootstrap。

它的关键作用是：

给模型一个 reasoning mode；
给 RL 一个好初始化；
给 verifier/search 一个候选生成器；
给小模型一个蒸馏路径；
给 latent reasoning 一个可监督的外显教师；
给 Agent 一个初始 mental trajectory 格式。

#16. 当前专门研究 think SFT 的代表工作速览

工作	时间	核心问题	SFT 相关要点
DeepSeek-R1	2025	RL 如何激发 reasoning	cold-start long-CoT SFT 稳定可读性；RL 后 rejection sampling；R1-Distill 进行 long-CoT 蒸馏
STILL-2	2024	如何复现 slow-thinking system	imitate long-form thought data，再 explore/self-improve
Sky-T1	2025	低成本训练 o1-preview-like model	约 17K long-CoT SFT，基于 Qwen2.5-32B-Instruct
s1	2025	简单 test-time scaling	1K 高质量 reasoning traces + budget forcing
LIMO	2025	reasoning 是否也 less is more	817 条 curated reasoning samples 激活推理能力
OpenThoughts	2025	reasoning data recipe 如何设计	系统研究数据来源、teacher、采样、过滤、scaling curves
Qwen3	2025	thinking / non-thinking 如何统一	long-CoT cold-start、reasoning RL、混合 thinking/non-thinking SFT、thinking budget
Stream of Search / Backtracking 线	2024–2025	错误/回退轨迹是否有价值	从 clean solution SFT 转向 search trace / backtracking trace 学习

#17. 我对这个方向的研究判断

#17.1 think SFT 的价值是真实的，但不是因为它“直接教会推理算法”

它有效，主要因为：

基础模型已有潜在能力；
高质量 long-CoT 提供强行为模板；
SFT 改变模型的 mode；
显式 scratchpad 提供更多 test-time computation；
SFT 给后续 RL/search/verifier 一个可用初始化。

#17.2 think SFT 的上限也很清楚

它的直接目标是 teacher trace likelihood，不是 outcome optimality。

所以它会遇到：

rationale imitation；
teacher dependence；
CoT unfaithfulness；
overthinking；
缺少探索；
缺少 credit assignment；
对 Agent 长程任务不够。

#17.3 真正下一阶段不是“更多长 CoT”，而是“可控、可验证、可压缩的思考”

我认为后续最重要的问题不是让模型写更长 <think>，而是：

什么样的 reasoning trace 真有用？
如何验证中间过程？
如何学会搜索而不是背诵 clean solution？
如何决定 think / no-think？
如何把显式思考压缩到 latent space？
如何在 Agent 环境里学习失败恢复和长程 credit assignment？
如何用 model-based RL 学 transition/value，而不只是 imitation policy？

#18. 对 wenjun 可能值得做的研究方向

#18.1 Trace quality attribution：哪些 reasoning tokens 真有因果价值？

可以做：

删除某些 reasoning steps，看答案是否变化；
替换中间步骤，看最终是否受影响；
比较 clean solution、verbose CoT、search trace、backtracking trace；
做数据归因：哪些样本带来哪些能力提升。

目标是从“好看的推理”转向“可验证有效的推理”。

#18.2 Agent-style reasoning SFT：从 mental trace 到 action trace

把 think SFT 扩展到 Agent：

state → thought → action → observation → reflection → next action

重点不是单步答案，而是：

是否正确调用工具；
是否验证结果；
是否恢复错误；
是否避免越权；
是否保持用户目标；
是否抵抗 prompt injection。

#18.3 Model-based reasoning：学习推理状态转移和值函数

普通 SFT 只学 policy imitation。

更基础的问题是：模型能否学习：

当前解题状态是什么；
做某个推理步骤后状态如何变化；
当前路径成功概率多高；
哪个分支值得探索；
什么时候停止。

这就是把 reasoning model 推向 model-based RL / world model 的方向。

#18.4 Latent think distillation：把外显 CoT 压缩成内部计算

可研究：

visible CoT teacher → hidden-state student；
compressed CoT；
learned latent scratchpad；
recurrent depth；
final answer without visible CoT；
什么时候需要暴露推理，什么时候隐藏。

这直接连接潜空间推理。

#18.5 Budget controller：学会何时思考、思考多久

可以设计 benchmark：

简单题直接答；
中等题短 CoT；
难题长 CoT + verifier；
Agent 长任务中动态分配检索、计划、工具、测试、回滚预算。

这比单纯 reasoning accuracy 更接近真实系统。

#19. 总结

目前 think / reasoning 模型的 SFT 和传统 SFT 的区别，可以压缩成一句话：

传统 SFT 教模型“如何作为助手回答”；think SFT 教模型“如何把问题转化为一段可展开、可监督、可蒸馏、可验证的计算轨迹”。

它带来了新的训练范式：

long-CoT distillation
+ cold-start SFT
+ rejection sampling
+ process filtering
+ budget-conditioned SFT
+ thinking / no-thinking mode
+ RLVR / verifier / self-improvement

但它也有新的核心矛盾：

模仿 teacher trace ≠ 学到真实推理算法
更长 thinking ≠ 更有效 reasoning
可读 CoT ≠ 忠实内部计算
正确 final answer ≠ 正确 reasoning process

我的最终判断是：

think SFT 是 reasoning model 的重要 bootstrap，但不是最终答案。它的真正价值在于给模型一个可操作的 slow-thinking 行为先验，让后续 RL、verifier、search、latent reasoning 和 Agent trajectory learning 有东西可以优化、筛选和压缩。

对未来研究来说，最有价值的不是继续堆更多长 CoT，而是研究：

哪些思考有用；
如何验证思考；
如何学会搜索；
如何控制预算；
如何从显式 CoT 走向潜空间推理；
如何把单轮 think trace 扩展成长期 Agent 的行动轨迹。

这条线很可能会成为 LLM Agent、代码智能、model-based RL 和基础模型后训练交汇处的核心问题之一。

#参考锚点

DeepSeek-AI, DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, arXiv:2501.12948, 2025.
Muennighoff et al., s1: Simple test-time scaling, arXiv:2501.19393, 2025.
Ye et al., LIMO: Less is More for Reasoning, arXiv:2502.03387, 2025.
Imitate, Explore, and Self-Improve: A Reproduction Report on Slow-thinking Reasoning Systems, arXiv:2412.09413, 2024.
NovaSky-AI, Sky-T1: Train your own O1 preview model within $450, 2025.
OpenThoughts Team, OpenThoughts: Data Recipes for Reasoning Models, arXiv:2506.04178, 2025.
Qwen Team, Qwen3 Technical Report, arXiv:2505.09388, 2025.
Wei et al., Chain-of-Thought Prompting Elicits Reasoning in Large Language Models, arXiv:2201.11903, 2022.
Kojima et al., Large Language Models are Zero-Shot Reasoners, arXiv:2205.11916, 2022.
Wang et al., Self-Consistency Improves Chain of Thought Reasoning in Language Models, arXiv:2203.11171, 2022.
Lightman et al., Let’s Verify Step by Step, arXiv:2305.20050, 2023.
Gandhi et al., Stream of Search, arXiv:2404.03683, 2024.
Snell et al., Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters, arXiv:2408.03314, 2024.
Research survey anchors: Reasoning on a Budget, Budget Guidance, Continue-Thinking Token, ThinkDial, Plan-and-Budget, Compressed Chain-of-Thought, Adaptive Graph of Thoughts.

#Think / Reasoning 模型的 SFT：和传统指令微调有什么不同？

#0. 先说人话：以前 SFT 教模型“怎么答”，现在 think SFT 教模型“怎么想出来”

#1. 为什么 think SFT 会成为新问题？

#1.1 早期 instruction tuning 已经解决不了 reasoning model 的核心矛盾

#1.2 R1 / o1-style 模型让大家意识到：推理时计算是新 scaling 轴

#2. 从优化目标看：think SFT 本质上仍是 imitation learning

#3. 那为什么少量高质量 think 数据会有效？

#3.1 基础模型已经有潜在推理能力

#3.2 一条好的 reasoning trace 是高密度监督

#3.3 think SFT 很大程度上是在教“模式切换”

#4. 代表工作一：DeepSeek-R1 —— cold-start SFT、RL、rejection sampling、distillation 的组合范式

#4.1 R1-Zero：不做 SFT，直接 RL，会发生什么？

#4.2 R1：cold-start SFT 的作用不是创造全部 reasoning，而是让 RL 更稳定、更可读

#4.3 R1-Distill：think SFT 最直接的形态

#5. 代表工作二：STILL-2 / Sky-T1 —— 公开复现 slow-thinking system

#5.1 STILL-2：Imitate, Explore, Self-Improve

#5.2 Sky-T1：低成本训练 O1-preview-like 模型

#6. 代表工作三：s1 —— 1000 条高质量 reasoning traces + budget forcing

#6.1 s1K 说明：数据质量和选择比规模更关键

#6.2 budget forcing：SFT 之后还要控制 test-time compute

#7. 代表工作四：LIMO —— Less is More for Reasoning

#7.1 LIMO 的核心假设

#7.2 它和传统 SFT 的不同

#7.3 局限

#8. 代表工作五：OpenThoughts / OpenThinker —— 系统研究 reasoning data recipe

#8.1 从“模型配方”转向“数据配方”

#8.2 对研究的意义

#9. 代表工作六：Qwen3 —— thinking / non-thinking 融合到一个模型

#9.1 为什么这很重要？

#9.2 这让 SFT 变成 mode-conditioned training

#10. think SFT 的主要技术路线分类

#10.1 Long-CoT distillation

#10.2 Rejection sampling SFT

#10.3 Process-supervised SFT

#10.4 Budget-conditioned SFT

#10.5 Search-trace / backtracking SFT

#11. think SFT 和 RLVR/RL 的关系：不是替代，而是互补

#11.1 SFT：初始化行为先验

#11.2 RLVR：用可验证 reward 优化结果

#11.3 Verifier：连接 SFT 和 RL 的桥

#12. think SFT 的局限：为什么它可能到顶？

#12.1 CoT 忠实性问题

#12.2 错误过程污染

#12.3 Overthinking

#12.4 缺少探索和 credit assignment

#12.5 Teacher 依赖

#13. 和 latent reasoning 的关系：显式 <think> 可能只是过渡形态

#14. 和 Agent trajectory training 的关系

#15. 一个统一框架：think SFT 在训练栈中的位置

#16. 当前专门研究 think SFT 的代表工作速览

#17. 我对这个方向的研究判断

#17.1 think SFT 的价值是真实的，但不是因为它“直接教会推理算法”

#17.2 think SFT 的上限也很清楚

#17.3 真正下一阶段不是“更多长 CoT”，而是“可控、可验证、可压缩的思考”

#18. 对 wenjun 可能值得做的研究方向

#18.1 Trace quality attribution：哪些 reasoning tokens 真有因果价值？

#18.2 Agent-style reasoning SFT：从 mental trace 到 action trace

#18.3 Model-based reasoning：学习推理状态转移和值函数

#18.4 Latent think distillation：把外显 CoT 压缩成内部计算

#18.5 Budget controller：学会何时思考、思考多久

#19. 总结

#参考锚点

#13. 和 latent reasoning 的关系：显式 `<think>` 可能只是过渡形态