论文精读

详解 VibeThinker-3B 技术报告：如何用 Spectrum-to-Signal 后训练范式、multi-domain RL、offline self-distillation 与 claim-level test-time scaling，把 3B dense 小模型推到数学和代码等可验证推理任务的一线性能区间。

LLM Reasoning Small Language Models Post-training RLVR Code Reasoning Test-time Scaling

2026-06-15

JitRL：不用梯度更新，让 LLM Agent 在测试时做“即时强化学习”

详解 Just-In-Time Reinforcement Learning 如何把历史轨迹记忆转成 advantage，在推理时直接加到候选动作 logits 上，从而在不更新参数的情况下实现类似 KL 约束策略优化的 agent 持续学习。

LLM Agent reinforcement learning continual learning test-time learning memory WebArena

2026-06-14

详解 τ0-WM：把“会想象未来”的视频世界模型做成机器人策略

详细解读 τ0-WM 这篇机器人操作论文：它如何把 Video Action Model 和 Action-Conditioned Video Simulator 统一到一个视频-动作世界模型里，用异构数据训练，并在测试时通过候选动作筛选、未来模拟和动作修正提升长程操作成功率。

机器人世界模型视频生成 VLA Test-Time Compute Manipulation

2026-06-13

Visual Language Hypothesis：视觉为什么需要“语言”？一篇拓扑视角论文的小白讲解

这篇论文用纤维丛、商空间、同胚等拓扑概念解释一个直觉：视觉理解不是记住像素，而是把许多外观变化压缩成少量稳定语义；这种压缩需要外部语义目标和能做“展开—咔哒归类”的模型结构。

视觉语言模型表征学习拓扑语义抽象多模态

2026-06-10

Post-training is (Massive) Supervised Learning：后训练正在把 LLM 带回“大规模监督学习”吗？

这篇 position paper 认为，当前 LLM 的大规模后训练正在把评测分布变成训练分布；即使从随机初始化开始，只靠数学/代码 SFT 数据也能在对应 benchmark 上取得不低成绩，因此很多“推理能力”可能首先是分布拟合能力，而不是开放泛化能力。

LLM post-training supervised learning SFT RL reasoning meta-learning

2026-06-08

MiMo-7B 训练过程详解：一个 7B 推理模型是怎样从预训练到 RL 被“养出来”的

详细拆解小米 MiMo-7B 技术报告中的训练流程：推理导向预训练、MTP 架构、SFT 冷启动、可验证数学/代码 RL、test-difficulty reward、dynamic sampling 与 Seamless Rollout Engine。

MiMo-7B reasoning model pretraining reinforcement learning GRPO code RL

2026-06-01

MiniMax-M2.7 技术报告详解：10B 激活参数如何撑起 Agentic Intelligence

详解 MiniMax-M2.7 技术报告：从 229.9B 总参数/9.8B 激活参数的 MoE 架构，到 192K 长上下文、MTP 推测解码、agentic 数据管线、Forge 强化学习系统、交错思考与自演化能力，理解“mini activations, max real-world intelligence”背后的系统路线。

MiniMax-M2.7 MoE Agent RL Forge self-evolution interleaved thinking long context

2026-06-01

Unlocking the Working Memory of Large Language Models for Latent Reasoning：让大模型在“工作记忆”里推理

详解 RiM 如何用固定 memory blocks 替代自回归生成的思维链，把中间推理从“说出来”变成“存在工作记忆里”，并在低延迟下取得比 Coconut 更好的数学推理表现。

latent reasoning LLM reasoning working memory Coconut RiM test-time compute

2026-05-26

ECHO：Terminal Agents 如何“免费”学到世界模型

解读 Microsoft Research 论文 ECHO：把终端环境返回的 stdout、stderr、日志、文件内容等 observation token 也纳入训练损失，让失败轨迹也产生密集监督，从而在不增加 rollout 的情况下提升 terminal agent 的 RL 效率。

LLM Agent Agent RL World Model GRPO Terminal Agent Code Agent

2026-05-24

HRM-Text：一篇试图把“预训练”重新做小的论文

解读 arXiv:2605.20613 HRM-Text：用分层递归架构、任务完成目标和 PrefixLM，把 1B 模型从零训练的门槛压到 40B tokens / 约 1500 美元量级。

论文解读预训练架构 PrefixLM recurrent-model LLM