主题归档 2026-06-04 ★★★★★ LLM Reasoning Chain-of-Thought Latent Reasoning Test-Time Compute Research Survey

#把 CoT 压成一个统一 think token：从 Pause Token 到潜空间推理的研究脉络

#0. 一句话结论

你提出的想法不是没人做，反而已经形成了一条很清晰的研究线：从 <pause> / dummy token 提供额外 forward 计算，到把 CoT 压缩成特殊 token / dense representation，再到 Coconut 这类连续潜空间推理。

但关键判断是：

“把所有 think 文本机械替换成同一个 token 然后 SFT”很可能不够；真正有效的版本通常需要让这个 token 的隐藏状态承载任务相关信息，或者在预训练/后训练阶段专门教模型如何利用这些 token。

换句话说，表面上看模型只在输出一个重复字符；但真正有用的不是这个字符本身，而是每输出一次 token，Transformer 又多跑了一轮，并且这个 token 对应位置的 hidden state 可以被后续 token attend 到。如果训练得当，这些 hidden state 就可能成为“不可读的草稿纸”。

你的想法可以概括成：

原始 CoT 数据：
Question -> <think> step1 step2 step3 ... </think> -> Answer

替换后数据：
Question -> <think> τ τ τ τ τ ... </think> -> Answer

推理时：
Question -> <think> τ τ τ τ τ ... </think> -> Answer

其中 τ 是统一的 think token / pause token / filler token。这个方向的核心问题是：

额外 token 是否真的给模型更多计算？ 是的，每个 token 都触发一次新的自回归 forward，并产生新的 hidden state。
这些 hidden state 是否会承载“思考内容”？ 不自动保证，需要训练目标设计。
把自然语言 CoT 全部替换成同一个 token，会不会丢掉监督信号？ 会。最朴素的替换会把 step-level 语义监督抹掉，只剩“这里要等 N 步”的监督。
有没有更强做法？ 有：learnable pause token、compressed CoT、hidden CoT、continuous thought、soft thinking、continue-thinking token 等。

下面按研究脉络展开。

#1. 先说人话：为什么“重复一个 token”理论上可能有用？

标准 decoder-only LLM 生成第 K+1 个 token 时，只能基于前面 K 个 token 的 hidden states 做计算。它的计算深度基本固定：每生成一个 token，模型跑一遍所有层。

如果我们让模型在答案前先生成 100 个“无意义”的 τ：

问题 -> τ -> τ -> τ -> ... -> 答案

那模型实际上做了 100 次额外的自回归步骤。每一步都会产生一个新的 hidden state。后面的 token 可以 attend 到这些 τ 位置的 hidden states。

所以 τ 不一定只是“空字符”。它可以像一张草稿纸：

外面看：每一步都只是同一个符号；
内部看：每个位置的 hidden state 都不同，因为它的上下文不同；
后续答案可以利用这些 hidden states。

这就是 Pause Tokens / contemplation tokens / latent reasoning 的共同直觉。

但这里有一个容易误解的点：

重复同一个 token，不等于重复同一个计算。

虽然 token id 一样，但第 1 个 τ、第 2 个 τ、第 50 个 τ 的位置编码、attention 上下文、KV cache 都不同，因此 hidden state 可以不同。

真正的问题不是“同一个 token 能不能提供计算”，而是：

模型有没有被训练成把这些额外 hidden states 当作有效工作区，而不是只学会空转。

#2. 最直接相关工作：Pause Tokens

#2.1 Think before you speak: Training Language Models With Pause Tokens（ICLR 2024）

论文：Think before you speak: Training Language Models With Pause Tokens
arXiv：2310.02226
作者：Sachin Goyal 等
核心想法：在输入前缀后面追加一串 learnable <pause> token，模型看到最后一个 pause token 后才开始输出答案。

这篇几乎就是你想法的最直接祖先。

它问的问题非常直白：

语言模型平时生成下一个 token 时，只能基于已有 token 做一次固定量的计算。那能不能让它在真正输出前，多处理几个 dummy token，从而多做一些内部计算？

方法是：

原始：prefix -> answer

pause 版本：prefix -> <pause> <pause> ... <pause> -> answer

这里 <pause> 是 learnable token。关键不是让模型输出可读推理，而是让它“延迟回答”。

#2.2 主要实验结论

论文在 1B 和 130M decoder-only 模型上做了 pretraining + downstream finetuning。核心发现是：

只有当模型在预训练和下游微调阶段都见过 pause token 时，推理时加入 pause 才稳定有收益。

论文摘要和正文报告：对于 1B 模型，pause-training 在多个任务上有提升，例如：

SQuAD exact match 提升约 18%；
CommonSenseQA 提升约 8%；
GSM8K 提升约 1% accuracy。

但它也发现：

如果只在下游 finetuning 加 pause，而预训练没有，收益弱很多，甚至可能掉点；
每个任务有自己的最佳 pause token 数；
pause token 放在 prefix 后面通常比放在前面更好；
减少 inference-time pause 数量时，性能会相对平滑下降。

#2.3 对你想法的启发

这篇论文给你的想法一个重要判断：

可行，但不是简单 SFT 就一定行。

如果你只是拿一个已经训练好的模型，把 CoT 文本替换成 τ τ τ... 再 SFT，可能会遇到和论文里 “standard pretrain + pause finetune” 类似的问题：模型底层并没有在预训练阶段学会如何利用这些 dummy tokens 作为计算空间。

更强版本可能是：

在继续预训练阶段插入 pause/filler token；
在 SFT 阶段把 CoT 压成这些 token；
在 RL/RLVR 阶段让模型学会选择 token 数量、何时停止、如何利用这些 token 改善最终答案。

#3. 从 pause token 到 “contemplation tokens”：不只是等一等，而是压缩思考

Pause Tokens 的 τ 本质上更像“给模型额外算力”。但你的问题更进一步：

能不能把真实 CoT 的内容压进统一 token 的 hidden states 里？

这就进入了 contemplation tokens 这一类工作。这个术语在 Compressed Chain of Thought 中被明确使用，用来指那些在推理时为模型提供额外计算的特殊 token。

可以把路线分成三层：

路线	表面 token	内部目标	与你的想法关系
Pause Token	固定 `<pause>`	延迟输出，增加计算	最接近“统一 think token”
Compressed / Hidden CoT	特殊压缩表示	压缩显式 CoT 语义	更接近“把 CoT 压进 token”
Continuous / Soft Thought	连续 embedding / hidden state	直接在潜空间推理	更激进，不再局限离散 token

#4. Compressed Chain of Thought：把 CoT 压成 dense contemplation tokens

#4.1 Compressed Chain of Thought: Efficient Reasoning Through Dense Representations（2024）

论文：Compressed Chain of Thought: Efficient Reasoning Through Dense Representations
arXiv：2412.13171
作者：Jeffrey Cheng, Benjamin Van Durme
核心想法：把显式 CoT 压缩成连续 dense contemplation tokens，用更少 token 获得类似推理收益。

这篇文章非常贴近你的问题，因为它直接讨论了：

CoT 很长，生成慢；能不能不生成完整自然语言推理，而生成一小段 dense representation 来承载推理？

它对相关方法做了一个很有用的分类：

方法	token 是否有内容	离散/连续	长度	备注
Pause Tokens	否	离散	固定长度，并行插入	最好从预训练阶段加入
Coconut	是	连续	固定长度，自回归	删除语言推理步骤，改用连续 thought
CCoT	是	连续	可变长度，自回归	压缩显式 reasoning chain

CCoT 的关键在于：它不满足于“空转等待”，而是希望 contemplation tokens 是 contentful 的，也就是它们应该对应原始 CoT 的压缩版本。

#4.2 对你想法的启发

你的方案如果只是：

step1 step2 step3 -> τ τ τ

那 τ 的 label 本身没有携带 step1/step2/step3 的内容。模型能否把内容自动转移到 hidden state，取决于最终答案 loss 是否足够强、训练分布是否足够好。

CCoT 的启发是：

更稳的路线不是简单替换，而是显式设计一个“压缩 CoT 到 token/embedding”的训练目标。

例如：

teacher 生成完整 CoT；
compressor 把 CoT 压成若干 latent / dense tokens；
student 只看到问题 + compressed tokens，预测最终答案；
通过答案 loss、对比学习 loss、重构 loss 或 distillation loss 让 compressed tokens 保留足够推理信息。

这比“全部换成同一个 token 然后 SFT”更接近可控、可解释、可优化的研究方案。

#5. Hidden Chain-of-Thought：把显式 CoT 变成特殊压缩表示

#5.1 Expediting and Elevating LLM Reasoning via Hidden Chain-of-Thought Decoding（2024）

论文：Expediting and Elevating Large Language Model Reasoning via Hidden Chain-of-Thought Decoding
arXiv：2409.08561
核心想法：训练一个辅助 CoT 模型，把完整思考过程压缩成 compact special token representation，再让 HCoT 模型基于这个隐藏表示预测答案。

这篇的摘要说得很清楚：

生成完整 CoT 会导致输出序列很长，推理成本高；
他们用 semantic alignment 压缩 CoT；
辅助 CoT 模型学习生成与 ground-truth CoT 对齐的 compact special token representation；
HCoT 模型在 prefix instruction + compressed CoT representation 条件下生成答案；
在数学推理、agent invocation、问答任务上达到接近或更好的效果，同时 decoding time 至少 1.5x speedup。

#5.2 对你想法的启发

这条路线和你的想法的差别在于：

你设想的是“统一 token 反复输出”；
HCoT / CCoT 更偏向“特殊 token representation 承载压缩语义”。

如果把你的想法增强一下，可以变成一个更强研究问题：

能不能让一串表面相同的 token，在 hidden state 上表示不同的压缩推理状态？

这比“一个 token 代表所有 think”更准确。因为严格说，模型不是把所有思考压进 token id，而是压进每个位置的 hidden state / KV cache。

#6. Coconut：干脆不在语言空间思考，在连续潜空间思考

#6.1 Training Large Language Models to Reason in a Continuous Latent Space（Coconut, 2024）

论文：Training Large Language Models to Reason in a Continuous Latent Space
arXiv：2412.06769
作者：Shibo Hao, Sainbayar Sukhbaatar, DiJia Su, Xian Li, Zhiting Hu, Jason Weston, Yuandong Tian
核心想法：不用自然语言 token 表示中间推理，而是把模型上一步的 last hidden state 直接作为下一步输入 embedding，形成 continuous thought。

Coconut 的核心观点是：

自然语言不一定是最适合推理的空间。很多词只是为了文本连贯，不一定是推理必需；而某些关键决策需要规划和搜索，离散语言 token 可能迫使模型过早承诺一条路径。

它的方法可以理解为：

传统 CoT：
问题 -> 生成语言 step1 -> 生成语言 step2 -> 答案

Coconut：
问题 -> hidden thought 1 -> hidden thought 2 -> 答案

区别是，hidden thought 不被 decode 成具体词，而是作为连续向量直接喂回模型。

#6.2 实验中与 pause token 的比较

Coconut 论文中有一个很重要的表格，比较了 CoT、No-CoT、iCoT、Pause Token、Coconut 等。在 GSM8K、ProntoQA、ProsQA 上，Coconut 在某些逻辑/规划任务上显著优于 No-CoT 和 Pause Token，并且 token 数更少。

其中一个关键现象是：

Continuous thought 可能允许模型在一个 latent state 中保留多个候选下一步，表现出类似 breadth-first search 的行为，而语言 CoT 往往必须一次采样一个 token，容易过早走上一条路径。

这点和你的兴趣非常相关：如果我们关心 long-horizon agent、model-based RL、latent-space reasoning，那么真正有价值的不是“让模型输出更多看不见的 token”，而是：

让模型在潜空间中维护一个可更新的任务状态 / belief state / search frontier。

#6.3 对你想法的启发

Coconut 会提醒我们：

如果 token id 永远相同，语义容量主要来自 hidden state；
与其训练模型输出同一个离散 token，不如直接训练 continuous latent step；
但 continuous latent step 工程上更难，因为它改变了标准自回归 token 接口，不像 repeated τ 那样容易兼容现有 serving。

因此你的方案有一个现实优势：它兼容现有 LLM 推理框架。它不需要改模型 forward 接口，只需要新 token + 数据/训练。

#7. Continue-Thinking Token / Wait：从“思考压缩”转向“控制继续想多久”

#7.1 s1: Simple test-time scaling（2025）

论文：s1: Simple test-time scaling
arXiv：2501.19393
核心贡献之一：budget forcing。

s1 的做法很简单：如果模型太早结束 thinking，就在生成中追加 Wait，强迫它继续想；如果超预算，就强行终止。

这说明一个重要事实：

某些普通自然语言 token，例如 Wait，在 reasoning model 中已经可以起到“继续思考”的控制作用。

但 Wait 本身不是一个被专门训练的 latent token，它更多是一个 prompt/decoding trick。

#7.2 Learning a Continue-Thinking Token for Enhanced Test-Time Scaling（2025/2026）

论文：Learning a Continue-Thinking Token for Enhanced Test-Time Scaling
arXiv：2506.11274
核心想法：给 distilled DeepSeek-R1 增加一个单独的 <|continue-thinking|> token，只训练这个 token 的 embedding，其他模型参数冻结，用 RL 学会触发 extended reasoning。

这篇非常有意思，因为它几乎就是：

“能不能学习一个专门的继续思考 token，而不是手写 Wait？”

论文报告：

learned token 相比 baseline 和固定 Wait budget forcing，在若干数学 benchmark 上更好；
在 GSM8K 上，固定 Wait 带来约 1.3% absolute improvement，而 learned token 带来约 4.2% improvement；
但它也发现：如果固定 token 本来就不能改善某个设置，learned token 往往也没有显著收益。

#7.3 对你想法的启发

这条线回答的是另一个问题：

不是把 CoT 内容压成 token，而是用一个 token 控制模型“继续思考”。

它和你的方案的关系是：

你的 τ 可以是 思考占位 token；
<|continue-thinking|> 更像 控制 token，告诉模型别停，继续展开；
二者可以结合：τ 负责提供 latent workspace，controller 负责决定继续多少步。

这对 Agent 尤其重要：不是每个状态都需要同样长的 think token。真正好的系统应该会动态分配计算预算。

#8. Soft Thinking：不用单个离散 token，而用连续概念 token

#8.1 Soft Thinking: Unlocking the Reasoning Potential of LLMs in Continuous Concept Space（2025）

论文：Soft Thinking: Unlocking the Reasoning Potential of LLMs in Continuous Concept Space
arXiv：2505.15778
核心想法：生成 soft abstract concept tokens，这些 token 是多个 token embeddings 的概率加权混合，而不是某一个离散词。

它的动机和 Coconut 类似：离散 token 迫使模型每一步只能选择一个词，而连续概念 token 可以表达多个相关含义的混合。

这和你的想法的差别是：

你的 τ 是单一离散 token；
Soft Thinking 的“token”在 embedding 空间里是 soft mixture；
它试图让每个 thinking step 的表示本身更有表达力。

不过后续也有工作质疑 soft thinking 是否真的并行探索多条路径，说明这个方向仍在早期。

#9. Sentinel Tokens / Pause-Tuning：特殊 token 也可以用于长上下文信息聚合

你的想法主要是 reasoning，但还有一条相邻线：用特殊 token 聚合上下文。

#9.1 Taking a Deep Breath: Sentinel Tokens（2024）

论文：Taking a Deep Breath: Enhancing Language Modeling of Large Language Models with Sentinel Tokens
arXiv：2406.10985
方法：把文本分成 chunks，在每个 chunk 后插入 <SR> token，并修改 attention mask，让 <SR> 聚合该 chunk 的信息。

这不是 CoT 压缩，但说明特殊 token 可以成为“信息汇聚点”。

#9.2 Pause-Tuning for Long-Context Comprehension（2025）

论文：Pause-Tuning for Long-Context Comprehension: A Lightweight Approach to LLM Attention Recalibration
arXiv：2502.20405
方法：在长上下文中人工插入 pause tokens，微调模型，让它重新分配注意力，缓解 lost-in-the-middle。
报告结果：LLaMA 3.2 3B Instruct 和 LLaMA 3.1 8B Instruct 在 Needle-in-a-Haystack 上平均提升约 10.61% 和 3.57%。

这条线对你的启发是：

特殊 token 不一定只用于“多算几步”，也可以作为 attention / memory / summary anchor。

如果把它迁移到 Agent，就是在长轨迹中插入特殊 latent state token，压缩前面若干步工具调用、观察、失败原因、当前计划。

#10. 回到你的原始方案：直接把 CoT 全部替换成统一 token，会发生什么？

我们可以把方案拆成几个版本。

#10.1 版本 A：最朴素替换

Question + full CoT + Answer
变成：
Question + τ τ τ ... + Answer

然后 SFT。

这个版本的优点：

实现简单；
完全兼容现有自回归训练；
inference 时可用 τ 数量控制计算预算；
不泄露 CoT，输出更短、更安全。

但缺点也明显：

语义监督被抹掉了。 原本每一步 CoT 都给模型提供中间目标；替换成同一个 token 后，模型只知道“这里要输出 τ”，不知道每个 τ 应该承载什么。
训练 loss 可能太弱。 τ 的 token prediction 很容易学，只要一直输出同一个 token；真正难的是最后答案。最终答案 loss 是否足以反向塑造所有 τ hidden states，不一定。
模型可能学会空转。 它可以把 τ 当作格式要求，而不是工作区。
长度分配没有依据。 原始 CoT 多长，不一定等于真正需要多少 latent compute。
可解释性下降。 你不知道 τ 内部是不是真在思考，还是只是延迟。

#10.2 版本 B：pause-pretraining + CoT replacement SFT

先在继续预训练中让模型习惯：

文本片段 -> <pause>... -> 下一个 token

再做：

Question -> τ... -> Answer

这更接近 Pause Tokens 论文中有效的设置。它让模型先学会利用 dummy tokens 做 delayed next-token prediction，再迁移到 reasoning。

#10.3 版本 C：teacher CoT distillation 到 latent token

更强版本：

teacher 生成完整 CoT；
student 不输出 CoT，只输出 τ；
训练时除了最终答案 loss，还加一些辅助约束：

- hidden states 对齐 teacher CoT hidden states；

- 用 probe 从 τ hidden states 重构关键中间变量；

- contrastive loss：正确 CoT 压缩表示接近，错误 CoT 远离；

- process reward：不同阶段的 latent state 能支持下一步判断。

这个版本才真正接近：

把显式 CoT 内化为隐藏推理状态。

#10.4 版本 D：latent recurrent / continuous thought

不再要求输出同一个离散 token，而是让模型把上一步 hidden state 直接喂回去，类似 Coconut。

优点是表达力更强；缺点是要改模型推理接口，不如统一 token 工程上方便。

#11. 为什么“同一个 token”仍然可能承载不同思考？

一个常见误解是：如果 token id 一样，那每一步信息不就一样了吗？

不是。

第 t 个 τ 的输入 embedding 中 token embedding 部分相同，但它的 hidden state 取决于：

位置编码；
前面所有 prompt tokens；
前面所有 τ 的 hidden states；
attention pattern；
layer-by-layer transformation。

因此：

τ_1 hidden state ≠ τ_2 hidden state ≠ τ_3 hidden state

真正的信息在 hidden states / KV cache 里，而不是 token id 里。

这就像你在草稿纸上每一行都画同一个符号“□”，但每一行的脑内状态不同。外人看到的都是“□”，模型内部未必相同。

但问题是：

模型会不会自然学会把每一行“□”当作不同草稿？

这需要训练。

#12. 这条线和“隐藏 CoT / 商业 reasoning tokens”的关系

现在很多商业 API 会隐藏 reasoning trace，只返回 final answer，但仍然可能计费 reasoning tokens。相关工作如 CoIn: Counting the Invisible Reasoning Tokens in Commercial Opaque LLM APIs 关注的是如何审计这些不可见 reasoning tokens。

这说明产品层面已经接受了一个事实：

reasoning 不一定要以用户可见自然语言形式暴露。

但商业 API 的 hidden reasoning tokens 未必是你说的“统一 token”。它们可能是：

服务器端保留的普通文本 CoT；
隐藏通道中的特殊 token；
多轮内部采样/搜索；
verifier / tool / reranker 组合；
或者模型 routing + budget 控制。

所以不能直接说“o1/R1 就是统一 think token”。公开研究里，最接近的是 Pause Tokens、CCoT、HCoT、Coconut、continue-thinking token。

#13. 研究脉络总结：从“多算几步”到“潜空间工作区”

#阶段 1：显式 CoT —— 用语言当草稿纸

代表：Chain-of-Thought prompting、STaR、Quiet-STaR、R1 类 reasoning traces。

核心优势：

可监督；
可读；
易通过 SFT/RL 学；
能把复杂任务拆成步骤。

核心问题：

token 成本高；
慢；
CoT 未必忠实；
容易啰嗦；
不一定是最适合推理的表示空间。

#阶段 2：Pause / Wait —— 给模型额外 test-time compute

代表：Pause Tokens、s1 budget forcing、continue-thinking token。

核心优势：

简单；
兼容标准 decoder；
可控制预算；
可以让模型多检查、多修正。

核心问题：

不保证 token 内部有内容；
可能只是延迟；
需要训练模型利用这些 token；
固定预算容易 overthinking / underthinking。

#阶段 3：Compressed / Hidden CoT —— 把语言草稿压缩成隐藏表示

代表：Hidden CoT、Compressed Chain of Thought。

核心优势：

试图保留 CoT 的语义监督；
推理更快；
可以降低可见 token 成本；
更接近“压缩思考”。

核心问题：

训练复杂；
压缩表示是否忠实难验证；
如果压缩过强，可能丢掉关键中间变量；
需要设计对齐/重构/最终任务 loss。

#阶段 4：Continuous / Latent Thought —— 不再执着于语言 token

代表：Coconut、Soft Thinking、SoftCoT 等。

核心优势：

表达空间更自由；
可能避免语言 token 的过早承诺；
更适合规划、搜索、belief state；
与 model-based RL / latent world model 更自然衔接。

核心问题：

工程接口不标准；
训练不稳定；
可解释性更差；
很难证明 latent state 真的在做想象/搜索。

#14. 对你这个想法的可行性判断

#14.1 我认为“能达到一部分预期”

如果目标是：

让模型在答案前多做一些不可见/低可见的计算，并且用 token 数控制计算预算。

那么可以。Pause Tokens 和 continue-thinking token 已经说明这件事有可行性。

#14.2 但“直接替换所有 CoT 为同一个 token”大概率不是最优

因为它丢掉了 CoT 中最宝贵的监督：中间推理结构。

更准确地说，它把训练信号从：

每一步应该怎么推

降级成：

这里应该等多少步，最后答案是什么

这可能对简单任务够用，但对复杂数学、代码 Agent、长轨迹任务，最终答案 loss 太稀疏，难以训练出可靠 latent reasoning。

#14.3 更有研究价值的问题是：如何让统一 token 的 hidden state 变成 decision-sufficient state

我觉得最有潜力的表述不是：

一个 token 能不能代表思考？

而是：

一串表面相同的 token，能不能通过训练形成一系列 decision-sufficient latent states，使最终答案/下一步行动只依赖这些压缩状态即可？

这就和你的长期兴趣连接上了：

LLM Agent 的长轨迹不可能全部显式保留；
model-based RL 需要 latent state / imagined rollout；
code agent 需要把观察、测试失败、代码结构压缩成当前任务状态；
潜空间推理关心的正是“语言之外的思考表示”。

#15. 如果要做实验，我建议的最小可行路线

#15.1 实验 1：朴素 CoT replacement baseline

数据：GSM8K / MATH / simple code reasoning。

构造：

<question>
<think> τ τ τ ... τ </think>
<answer> final answer </answer>

其中 τ 数量可以等于原始 CoT token 数的压缩比例，例如：

1:1：每个 CoT token 替换一个 τ；
1:4：每 4 个 CoT token 替换一个 τ；
固定预算：统一 32/64/128 个 τ。

对照组：

No-CoT SFT；
Full-CoT SFT；
Short-CoT SFT；
Pause token only，不来自 CoT 长度；
Wait budget forcing。

看：最终准确率、token 数、不同 τ 数量下的 scaling curve。

#15.2 实验 2：预训练是否必要

对照：

base model 直接 SFT τ-CoT；
base model 先做 pause continued pretraining，再 SFT；
instruction model 直接 SFT；
reasoning model 直接 SFT。

核心问题：

模型是否必须先学会 delayed next-token prediction，才能利用 τ？

这是 Pause Tokens 论文留下的关键点。

#15.3 实验 3：hidden state 是否真的包含中间变量

不要只看最终准确率。要 probing：

对数学题，probe τ_i hidden state 是否能预测中间数值；
对图/逻辑题，probe 是否能预测当前节点、候选路径、未满足条件；
对代码任务，probe 是否能预测 bug location、下一步 action、测试失败原因。

如果 probe 发现 τ hidden states 中没有中间信息，那说明模型只是空转或靠 final answer memorization。

#15.4 实验 4：teacher hidden state distillation

更强训练：

teacher 用 full CoT 生成；
student 用 τ 生成；
对齐 student 的 τ hidden states 与 teacher 某些 CoT span 的 pooled hidden states；
或者训练一个 decoder 从 τ hidden states 重构 teacher CoT 的摘要/关键变量。

这可以验证：

显式 CoT 的计算能否被压缩进统一 token 位置的隐藏状态。

#15.5 实验 5：Agent 版本

对长轨迹 Agent，可以把每一段观察-行动-反馈压缩为 latent memory token：

obs_1, action_1, result_1 -> τ_state
obs_2, action_2, result_2 -> τ_state
...
当前决策 -> next action

评价不只是 final success，还包括：

下一步 action accuracy；
是否减少上下文长度；
是否提升长轨迹恢复能力；
是否能在失败后压缩出正确 diagnosis。

这比数学题更贴近你关心的 LLM Agent / model-based RL。

#16. 关键开放问题

#16.1 统一 token 的容量到底在哪里？

不是 token id，而是：

hidden state；
KV cache；
position-wise dynamics；
attention 对前文的重新读取；
后续 token 对这些 hidden states 的使用方式。

所以研究时不要问“一个 token id 能表达多少信息”，而要问：

一串同 token 不同位置的 hidden states，能形成多大有效计算容量？

#16.2 训练信号够不够？

最终答案 loss 很稀疏。要让 latent token 真学到推理，可能需要：

process supervision；
teacher distillation；
verifier reward；
intermediate probing loss；
curriculum：先部分替换 CoT，再完全替换。

#16.3 预算怎么动态分配？

固定输出 100 个 τ 会导致：

简单题 overthinking；
难题 underthinking；
agent 长轨迹中计算分配不合理。

需要 controller：

什么时候开始 think；
生成多少个 τ；
什么时候停止；
是否展开多条 latent branch；
是否调用工具/搜索/验证。

这就是 adaptive test-time compute。

#16.4 怎么证明它真的在思考？

必须做因果验证：

删除某些 τ hidden states，性能是否下降？
shuffle τ states，性能是否变化？
替换为其他题的 τ states，答案是否被污染？
从 τ state probe 出中间变量是否和正确推理一致？
干预某个中间变量方向，最终答案是否改变？

否则很容易只是“看起来在思考”。

#17. 我对这个方向的研究判断

我觉得这个方向值得做，但要避开一个坑：

不要把 novelty 放在“把 CoT 换成同一个 token”这个表面操作上；要放在“如何训练、验证、控制一串不可读 latent working states”上。

最有潜力的研究切口可能是：

#17.1 Decision-Sufficient Latent Thought Token

目标不是重构完整 CoT，而是压缩出对最终决策足够的信息。

这非常适合 Agent：agent 不需要把所有历史都说出来，只需要保留对下一步行动有用的状态。

#17.2 From CoT Compression to Agent State Compression

数学 CoT 是线性推理；Agent 轨迹是观察、工具、失败、修正、环境状态的混合。你可以把 τ 从“思考 token”推广成“任务状态 token”。

#17.3 Model-Based Latent Rollout Token

在 model-based RL 里，agent 会在内部想象未来。LLM Agent 也可以用 τ 表示 imagined rollout：

当前状态 -> τ_rollout_1 -> τ_rollout_2 -> τ_rollout_3 -> action

外部不显示每个 imagined state，但训练时用环境反馈/RLVR/teacher rollout 约束。

#17.4 Faithfulness / Causality Benchmark for Hidden Reasoning

现在很多 latent reasoning 工作缺少强因果验证。可以设计 benchmark：要求 hidden token 中必须保存某些可干预变量，否则无法完成任务。

#18. 代表论文列表

论文	年份	关键词	与你的想法的关系
Think before you speak: Training Language Models With Pause Tokens	2023/2024	pause token, delayed next-token prediction	最直接相关：用 learnable `<pause>` 给模型额外内部计算
Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking	2024	hidden rationale, self-training	学习在任意文本位置生成内部 rationale，说明“说话前思考”可训练
Expediting and Elevating LLM Reasoning via Hidden Chain-of-Thought Decoding	2024	hidden CoT, compact special representation	把完整 CoT 压缩成特殊表示再用于答案生成
Taking a Deep Breath: Sentinel Tokens	2024	sentinel token, chunk summary	特殊 token 作为上下文信息聚合点
Training LLMs to Reason in a Continuous Latent Space / Coconut	2024	continuous thought, latent reasoning	不生成语言 CoT，而在连续 hidden state 中推理
Compressed Chain of Thought	2024	contemplation token, dense representation	把显式 CoT 压缩成连续 contemplation tokens
s1: Simple test-time scaling	2025	budget forcing, Wait	用 `Wait` 强迫模型继续思考，控制 test-time compute
Pause-Tuning for Long-Context Comprehension	2025	pause token, attention recalibration	pause token 用于长上下文 attention 重新分配
Soft Thinking	2025	soft concept token, continuous embedding	用 soft token 替代离散 token 做推理
Learning a Continue-Thinking Token	2025/2026	learned continue token, RL	学一个专门 token 控制模型继续思考，优于固定 `Wait`
Reasoning on a Budget	2025	adaptive test-time compute survey	把该方向放进可控/自适应推理预算的系统框架

#19. 最后总结

你的想法可以成立，但要精确定义：

不是“一个 token 本身包含思考”，而是“一串相同 token 对应的不同 hidden states，为模型提供额外计算步和隐式工作区”。

已有研究已经证明：

<pause> token 可以带来额外计算收益，但最好在预训练和微调阶段都加入；
Wait / continue-thinking token 可以控制 reasoning model 继续想；
CoT 可以被压缩成 hidden / dense / continuous representations；
潜空间推理可能在规划/搜索任务上比自然语言 CoT 更有优势；
但简单把 CoT 文本替换成同一个 token，大概率会丢掉中间监督，需要更强的 distillation、probing、RL 或 curriculum。

如果要把它变成研究，我建议标题不要叫“统一 think token 替换 CoT”，而可以叫：

Learning Decision-Sufficient Latent Thought Tokens for Efficient Reasoning and Agent Planning

或者更偏 Agent：

Latent Working Tokens: Compressing Long-Horizon Agent Trajectories into Decision-Sufficient Hidden States

这会比单纯的 CoT token 替换更基础、更有延展性，也更贴近你关心的 model-based RL、latent-space reasoning 和长轨迹 Agent。