论文精读 2026-06-01 ★★★★★ MiniMax-M2.7 MoE Agent RL Forge self-evolution interleaved thinking long context

#MiniMax-M2.7 技术报告详解：10B 激活参数如何撑起 Agentic Intelligence

论文/技术报告：The MiniMax-M2 Series: Mini Activations Unleashing Max Real-World Intelligence

机构：MiniMax

时间：2026-05-26

arXiv：<https://arxiv.org/abs/2605.26494>

#0. 先用一句话讲清楚

MiniMax-M2.7 这份技术报告的主线不是“又做了一个更大的模型”，而是：

用 229.9B 总参数、每 token 只激活约 9.8B 参数 的 MoE 模型，配合面向真实 agent 任务的数据、强化学习系统和自演化工作流，把“小激活量”转化成接近闭源前沿模型的真实任务能力。

报告标题里的 Mini Activations Unleashing Max Real-World Intelligence 很关键。它不是简单宣传语，而是整篇报告的技术主张：

模型侧：用细粒度 MoE、sigmoid gating、full attention、192K 长上下文和 MTP，让单步激活算力尽量低，但模型容量足够大。
数据侧：不只做问答/偏好数据，而是围绕 coding、AppDev、终端、搜索、办公、金融、幻灯片等真实 agent 工作流构造“带环境、带验证、带奖励”的训练数据。
RL 侧：把 LLM 当 policy，把 context management、工具调用、memory、agent loop 都当环境，构建 Forge 这样面向长轨迹 agent 的 RL 系统。
agent 机制侧：强调 interleaved thinking，也就是“边想、边用工具、边根据观察修正计划”，而不是一次性前置长 CoT。
自演化侧：M2.7 已经能参与调试训练运行、修改 agent scaffold、自动跑多轮 ML 工程迭代；这被报告视为 early operational self-evolution。

Figure 1：MiniMax-M2.7 在多个 agentic coding / cowork / reasoning benchmark 上与闭源前沿模型对比。 — Figure 1：MiniMax-M2.7 benchmark overview

如果把这篇报告放到 wenjun 关心的 LLM Agent、agentic RL、self-evolving code agent、基础模型训练范式 里看，它的价值不只在分数，而在它把几条趋势串到了一起：

MoE 低激活成本 是 agent 长轨迹推理/工具调用可规模化的前提；
长上下文 + full attention 是让 agent 带着完整工作状态行动的底座；
可执行环境和 verifiable reward 是 agent RL 真正有效的核心资产；
训练系统本身 agent-native，才可能支持任意复杂 scaffolds 的黑盒/白盒训练；
模型参与改进自己的 scaffold，是从“后训练模型”走向“模型辅助模型迭代系统”的开端。

下面按“架构 → 数据 → SFT/RL → Forge 系统 → agent 机制 → 自演化 → 实验结果 → 批判性理解”来讲。

#1. 为什么 MiniMax-M2.7 的关键词是 agent，而不是 chat？

报告开头指出，大模型正在从短对话迁移到长时程 agentic workflows：

写和维护生产级代码；
在开放网页中搜索、交叉验证、生成报告；
操作工具、API、表格、幻灯片、终端环境；
在数百步 interleaved reasoning/action 中完成任务。

这类任务暴露出两个传统 chat model 不够重视的问题：

#1.1 长轨迹带来训练和推理成本瓶颈

Agent 任务不是“输入一个问题，输出一个答案”，而是：

看任务 → 思考 → 调工具 → 读观察 → 修计划 → 再调工具 → 写代码 → 跑测试 → 看报错 → 修复 → 汇报

每一步都可能触发一次 LLM completion。上下文会越来越长，工具输出、日志、文件片段、网页证据都会进入上下文。于是模型如果每 token 激活参数太大，成本会被 agent 轨迹长度放大很多倍。

这就是 M2 系列强调 9.8B activated parameters 的原因：它不是为了在单轮 benchmark 上省一点钱，而是为了让长轨迹 agent 的每一步都能承受。

#1.2 真正有用的 agent 任务必须能验证

很多开放式对话数据无法可靠判断“做对了吗”。但 agent 任务如果设计得好，天然可以有强反馈：

代码任务可以跑测试；
终端任务可以检查文件、命令输出、系统状态；
AppDev 可以检查页面能不能运行、交互是否正确、视觉是否达标；
搜索任务可以要求证据链；
表格/金融任务可以检查公式、数值、文件产物。

MiniMax-M2.7 的报告反复强调一个观点：reward 的质量和可信度，是释放 base model 潜力的关键。这点比“用了什么 RL 算法”更重要。

#2. 模型架构：229.9B 总参数，但每 token 只激活 9.8B

M2 是一个稀疏 MoE decoder-only Transformer。核心规格如下：

项目	M2 规格
总参数	229.9B
每 token 激活参数	9.8B
层数	62-layer decoder-only Transformer
hidden size	3072
vocab size	200,064
预训练 token	29.2T
最大上下文	192K
attention	full multi-head attention + GQA
query heads / KV heads	48 / 8
MoE experts	256 fine-grained experts
每 token 激活 experts	top-8
额外模块	Multi-Token Prediction, MTP

这个设计的目标很明确：容量大，但激活小；上下文长，但质量不能牺牲；推理快，但输出质量等价于标准自回归解码。

#2.1 Fine-Grained MoE：更多更小的专家

报告中 MoE 的三个关键改动是：

Fine-Grained Experts：用更多、更小的专家提高路由组合多样性。
Sigmoid Gating：不用 softmax top-k 的零和竞争，而是给每个 expert 独立激活分数。
Expert Bias：给 expert routing score 加可学习 bias，隐式调节专家利用率，减少对 auxiliary load-balancing loss 的依赖。

直白讲，传统 softmax gating 会让专家之间互相竞争：一个 expert 分高，其他 expert 分数相对就被压低。sigmoid gating 则更像“每个 expert 自己判断要不要参与”，多个 expert 可以同时高置信激活，这可能让路由更平滑。

报告的 Table 1 做了一个小规模消融：baseline、加 MTP、加 fine-grained experts 三种模型保持 2B activated / 17.8B total / 500B training tokens 不变。Fine-Grained 版本把 expert 数从 32 提到 128，top-k 从 2 提到 8，在 MATH、MMLU、ARC-Challenge、HumanEval 上多数最好。

Table 1：MoE fine-grained experts 与 MTP 的消融实验。Fine-grained experts 在多数 benchmark 上提升明显。 — Table 1：MoE/MTP ablation

这里最值得关注的不是某个小分数，而是设计哲学：

当总激活参数固定时，把 FFN 容量切成更细颗粒，让 token 可以组合更多 expert，可能比少数大 expert 更有表达力和负载均衡优势。

这对 agent 模型尤其重要，因为 agent 任务分布非常杂：代码、网页、工具、表格、自然语言推理、错误日志、UI 描述都混在一起。更细粒度的专家组合，可能更适合这种 heterogeneous distribution。

#2.2 为什么 M2 坚持 full attention？

这是报告里一个很有意思的技术判断。M2 没有继续使用 MiniMax-Text-01 里的 hybrid attention，而是在所有层采用 full multi-head attention。

原因不是他们不知道 full attention 贵，而是他们认为：

linear/sparse/sliding-window attention 在标准短 benchmark 上可能看起来没差；
但规模上去后，在复杂多跳推理、长上下文 agent、retrieval、in-context learning 上会暴露缺陷；
proxy benchmark 与真实下游能力的相关性不稳定；
线性/稀疏注意力的工程栈也还不如 full attention 成熟，比如 prefix caching、低精度 KV、speculative decoding 集成等。

报告中 hybrid SWA 的实验结论很直接：

预训练阶段，SWA 在 128K RULER、MTOB translation 等长上下文任务上明显更差；
SFT 后，超过 32K context 的 agent 任务和复杂长上下文任务差距更明显；
32K 以下，有些任务 SWA 可以持平甚至略好，但长上下文覆盖限制会伤害复杂 agent 能力。

这对当前长上下文模型设计有一个现实提醒：

省 attention 计算很诱人，但如果目标是长程 agent，而不是短问答，attention coverage 的损失可能在常规 benchmark 上被低估。

当然，报告也承认 sub-quadratic attention 长期会越来越重要，只是当前 M2 的生产质量目标下，full attention 更稳。

#3. MTP：既是训练信号，也是推测解码 draft path

M2 使用 Multi-Token Prediction（MTP）。它让模型不仅预测下一个 token，还训练额外模块预测更远的 token。

Figure 2：MTP 模块架构。主模型和 MTP 模块共享 embedding/output head，MTP 通过偏移 token 序列学习多步预测。 — Figure 2：MTP architecture

MTP 在 M2 里有两层意义。

#3.1 训练阶段：更丰富的多步预测信号

预训练初期，M2 使用一个 MTP 模块，loss weight 从 0.3 anneal 到 0.1。报告认为 MTP 在 reasoning-heavy 任务上收益较明显。

直觉是：next-token prediction 只要求模型预测一步，而 MTP 要求模型对未来多个 token 的走向也形成表示。这可能让 hidden states 更早捕捉“接下来几步会发生什么”。

#3.2 推理阶段：用于 speculative decoding

在 continued pretraining 的 decay phase，M2 从一个 MTP module 扩展到三个，也就是支持多步 speculative decoding。关键细节是：

不随机初始化 MTP modules，而是从主模型复制权重；
先冻结主模型，只训 MTP modules 到 loss 稳定；
再切换到主模型和 MTP modules 联合训练；
推理时由 MTP modules 生成 draft tokens，再由主模型一次 forward 验证。

这和 agent 推理很相关：agent 轨迹长、completion 多，如果每一步都能用 speculative decoding 提升吞吐，整体收益会被放大。

更关键的是，报告后面在 Forge 的 inference acceleration 中提到：MTP 模块会在 RL 中与 policy 通过 top-K KL divergence loss 持续共同训练，以防 RL policy 分布漂移后 draft acceptance rate 掉下去。这说明 MTP 不只是预训练附属模块，而是和 agent RL 系统联动的吞吐基础设施。

#4. 预训练数据：29.2T tokens 与 192K 长上下文

M2 的预训练分为：

constant phase：19.9T tokens；
decay phase：9.3T tokens；
总计：29.2T tokens。

数据来源包括网页、学术文献、书籍、代码、结构化 QA 等。报告特别提到对代码、数学、STEM 做了上采样，并用 model-based reward scoring 和辅助分类器做质量评估。

#4.1 长上下文扩展：8K → 32K → 192K

M2 的 context window 从 8K 逐步扩到 32K，再到 192K。长上下文数据主要来自：

高质量代码拼接；
自然长篇 PDF 文档；
主题相关文档打包。

这里要注意，192K 对 agent 不只是“能塞更多文本”，而是让模型在一个 episode 里保留更完整的工作状态。尤其如果采用 interleaved thinking，把 thinking blocks、工具调用、工具返回、日志和中间结论都保留在上下文中，长上下文就直接决定 agent 是否能持续自我修正。

#5. 后训练数据：从“答案数据”转向“可执行工作流数据”

MiniMax-M2.7 报告最重要的部分之一，是后训练数据管线。它覆盖五类能力：

Agentic Coding；
Agentic Cowork；
Reasoning-intensive tasks；
General-purpose conversation and writing；
Role-play and persona coherence。

其中与 M2.7 的 agent 能力最相关的是前两类。

#5.1 Agentic Coding：SWE、AppDev、Terminal 三条线

报告将 coding agent 数据分成三个互补域：

SWE：仓库级软件工程任务；
AppDev：全栈应用开发任务；
Terminal interaction：真实终端环境中的调试、配置、脚本、系统操作任务。

#SWE-Scaling Pipeline

SWE 数据从真实 GitHub PR 出发，但不是直接拿 PR 当训练数据，而是经过一整套转换：

收集 permissive license 下的 public GitHub PR 和 linked issues；
过滤 merged PR、有测试、质量较高的样本；
由 agent 构建可运行 Docker 环境；
对 PR 类型做 tagging/routing：bug fix、feature add、performance optimization、test/refactor 等；
针对不同 PR 类型构造不同 verifiable reward；
用模型检查 tests 与 problem statement 的一致性，补全缺失信息；
做 task transformation/augmentation，增加难度和任务变体；
输出包含 problem description、runnable Docker environment、verifiable reward 的最终数据。

这个流程的重点是：训练样本不是静态文本，而是一个可执行任务包。

#AppDev Pipeline

AppDev 更偏完整应用开发，包括 frontend、backend、Android、iOS 等。它从 domain expert 定义 meta queries 开始，再做随机采样、LLM rewriting、去重、rubric-based filtering、trajectory sampling 和 prompt distillation。

最有意思的是 Agent-as-a-Verifier：

execution layer：能不能跑；
interaction layer：交互是否符合要求；
visual aesthetics layer：视觉是否达标。

也就是说，奖励不只是“代码测试过了”，还包括用户真正关心的交互和视觉产物质量。

#Terminal-Gym

Terminal-Gym 从 Stack Overflow 等真实编程/系统操作场景出发，构造 terminal-compatible、Linux/Docker-relevant、scriptable、verifiable 的任务。它强调：

任务描述要结构化；
环境要能自动生成；
reward 要可验证；
难度可以动态演化。

这类数据对 code agent 很关键，因为现实中 agent 经常不是单纯改代码，而是在 shell 里安装依赖、跑测试、看日志、调配置、修环境。

#5.2 Agentic Cowork：搜索、办公、金融、幻灯片

M2.7 不是只做 coding agent，也做更广的 knowledge-worker agent。报告包括：

Deep Search / Open-Web Research：多步网页浏览、跨来源证据综合；
Office Tasks：报告、memo、结构化文档；
Financial Analysis / Spreadsheet Operations：表格、公式、金融建模；
Slide Generation and Editing：幻灯片生成与编辑。

Deep Search 数据管线尤其值得注意：它会从 seed question 出发，逐步 rewrite 和 obscure entities，让问题变得更难，以区分强弱 agent。同时，每个任务配 evidence specification，只有答案基于实际检索证据才接受。对于没有唯一短答案的 report-style query，则用 rubric-based judge 从 factual accuracy、transparency、uncertainty handling、risk disclosure 等维度评分。

这里的思想是：

未来 agent 能力的关键训练对象，不是“问答对”，而是“任务 + 环境 + 证据 + 产物 + 验证标准”。

#6. SFT：先把 interleaved thinking 教进去

M2 的 SFT 不是传统的单块长 CoT。报告明确说，SFT 的目标是让模型学会 interleaved thinking behavior。

传统 CoT 往往是：

Question → 一大段 reasoning → Answer

而 agent 轨迹更像：

Thinking → Tool Call → Observation → Thinking → Tool Call → Observation → ... → Final

所以 M2 的 SFT 数据会把 thinking traces 与 intermediate actions/observations 交织在同一轨迹中，让模型学会在行动后根据环境反馈修正自己的推理。

这一步很重要，因为 RL 如果从不会用工具、不会维护 reasoning state 的模型开始，探索成本会非常高。SFT 相当于先给模型一个好的 agent 行为先验，再用 RL 优化。

#7. RL 算法：把模型外的一切都当环境

M2.7 的 RL 形式化很适合理解 agentic RL。

#7.1 MDP 边界：LLM 是 policy，agent loop 是 environment

报告把 agent-environment interaction 建模为 MDP：

state $s_t$ ：当前上下文窗口，包括任务指令、历史、工具输出、产物等；
action $a_t$ ：一次 LLM completion，可能包含自然语言推理、工具调用、context management 操作、sub-agent 通信等；
observation $o_t$ ：环境执行工具/操作后返回的观察；
transition：由工具、agent harness、memory、context management 决定。

关键设计原则是：

边界画在模型生成接口处。模型生成之外的一切，包括工具环境、上下文管理、memory access、agent state transition，都视为 environment dynamics。

这点非常重要。因为真实 agent scaffold 千差万别，如果 RL 系统试图把所有 agent 内部逻辑都纳入 policy，就会不可扩展。M2.7 的做法是：policy 只负责在给定 context 下生成下一步，环境负责执行和更新状态。

#7.2 CISPO：带 clipped importance sampling 的 policy optimization

报告使用 MiniMax 之前提出的 CISPO（Clipped Importance Sampling Policy Optimization）。直觉上，它通过 importance ratio 调节 old policy 采样出来的数据对 current policy 的梯度贡献，并做非对称 clipping：

上界防止过大的 policy update；
下界允许把当前 policy 下不太可能的动作大幅降权；
stop-gradient 保证 importance weight 只调节梯度幅度，不引入二阶项。

这里不必纠结公式细节。更关键的是：M2.7 的 RL 难点不是单轮偏好优化，而是长达 192K tokens、上千中间动作的 agent trajectory。算法必须处理 off-policy、长轨迹 credit assignment、异步 rollout 和训练稳定性。

#7.3 Reward 设计：不能只有 outcome reward

报告认为，长轨迹 agent 只用最终 outcome reward 不够，因为 credit assignment 太稀疏。它设计了 composite reward：

Process Reward：奖励结构良好的中间推理，惩罚语言混杂、工具调用格式错误等；
Task Completion Time Reward：奖励更快完成任务，鼓励并行工具调用、减少无效等待；
Performance Reward：主要任务表现信号；
Reward-to-go with baseline：降低长轨迹梯度方差。

最值得注意的是 completion time reward。传统 RL 只优化“对不对”，但 agent 在真实产品里还必须“快不快”。同样正确的两条轨迹，一个顺序调用十个工具，一个并行调用，用户体验和成本完全不同。M2.7 把这个纳入 reward，是很实际的 agent 产品化思路。

#7.4 Mixed-domain RL：避免只会 agent，忘掉基础能力

如果只在 agentic tasks 上 RL，模型可能损害基础推理、知识、通用对话能力。报告采用 mixed-domain RL：在每个训练阶段同时混合 reasoning、coding、agent、general 四类数据，并逐阶段调节：

domain mixing ratios；
context length；
reward weights / difficulty；
training stages。

这反映了一个重要经验：

Agent 能力不是孤立能力，它依赖基础推理、知识、代码、指令跟随、格式稳定性。RL 不能只在单一 agent benchmark 上猛冲。

#8. Forge：面向长轨迹 Agent RL 的训练系统

如果说数据和 reward 是 fuel，那么 Forge 是让这些 fuel 真正烧起来的发动机。

报告把大规模 agent RL 的基础设施问题称为一个 “impossible triangle”：

System Throughput：吞吐要高；
Training Stability：policy gradient 方差要可控，训练要稳定；
Agent Flexibility：支持任意 agent 架构，包括单轮 scaffold、多 agent 系统、动态 context management、黑盒 API agent。

这三者互相冲突：

追求吞吐会倾向于先训练短任务，造成分布偏移；
任意 agent scaffold 会破坏训练系统对 state transition 的可见性；
长轨迹 credit assignment 又会让调度和数据处理成本爆炸。

#8.1 Forge 总架构：agent、middleware、engine 解耦

Figure 4：Forge RL system。Agent side、middleware、training/inference engines 通过 Gateway Server 与 Data Pool 解耦。 — Figure 4：Forge RL system

Forge 分为三层：

Agent Side：任意 agent implementation，只负责产生轨迹；
Middleware：Gateway Server + Data Pool；
Training/Inference Side：Rollout Engine + Train Engine。

Gateway Server 负责把各种 agent scaffold 的 completion request 标准化，Data Pool 异步收集轨迹数据。Rollout Engine 负责高吞吐生成，Train Engine 从 Data Pool 消费数据、计算 CISPO 梯度，再把权重同步回 Rollout Engine。

这个设计的重点是：agent 端和训练端可以独立扩展。

#8.2 白盒与黑盒 agent 都要支持

报告区分两类 agent：

White-box agents：把 context management 逻辑暴露给训练框架，训练系统能重建状态转换；
Black-box agents：agent 内部逻辑完全不暴露，只通过 API 请求 LLM，系统只收集外部可见的 $(s_t, a_t, o_t)$ 。

黑盒支持很关键，因为现实中的 agent scaffold 往往很复杂，可能有 deep thinking loops、aggressive context rewriting、hierarchical multi-agent coordination。如果 RL 系统要求它们全部改造成特定接口，生态就很难扩展。

Forge 的 Gateway 抽象让两类 agent 在同一训练循环中工作：白盒 agent 多注册一些 CM 操作，黑盒 agent 只提供请求流。

#8.3 Windowed FIFO：在吞吐和分布一致性之间折中

Agent rollout 时间差异极大：简单 API 调用可能几秒，复杂搜索/代码任务可能几小时。如果严格 FIFO，队首慢任务会阻塞训练；如果完全 greedy，短任务会先进入训练 batch，长任务后进入，造成训练分布偏移和不稳定。

Forge 提出 Windowed FIFO。

Figure 5：Windowed FIFO 调度。窗口内允许乱序取已完成轨迹，窗口边界外保持 FIFO。 — Figure 5：Windowed FIFO scheduling

规则是：

generation queue 有顺序；
scheduler 只能在从当前 head 开始的窗口 $W$ 内取已完成轨迹；
窗口内可以 greedy，谁先完成拿谁；
窗口外即使完成，也不能越过窗口边界；
窗口只有在 head-of-window 任务被消费后前进。

这样可以减少 head-of-line blocking，同时保持接近 FIFO 的分布属性。报告给出的经验是 $W=0.3N$ 可以维持近似 FIFO 的分布，同时显著减少集群空闲时间。

#8.4 Prefix Tree Merging：长上下文训练别重复算公共前缀

多轮 agent 轨迹里，很多训练样本共享同一个长上下文前缀。如果把每个 sample 独立训练，就会反复计算相同 prefix，浪费巨大。

Forge 使用 prefix tree merging：

Figure 6：Prefix tree merging。共享长前缀只 forward 一次，之后在不同 response segment 分支。 — Figure 6：Prefix tree merging

做法是：

把同一 batch 中共享公共前缀的 completions 合并成一棵树；
shared prefix 在 forward 中只算一次；
到不同 response segment 处分支；
forward 后再根据 metadata 拆开，独立计算每个 sample 的 loss。

报告强调这在数学上等价于独立样本训练，没有近似误差，因为 causal attention 下共享前缀的 activations 不依赖后续分支。它声称实践中可以达到 最高 40× training speedup，并降低显存占用，使更长序列和更大 batch 可行。

#8.5 Inference acceleration：MTP、prefill/decode disaggregation、全局 KV cache

Forge 为 agent RL rollout 做了三类推理优化：

MTP-based speculative decoding：MTP modules 与 RL policy 持续共同训练，保持 draft acceptance rate；
Heterogeneous prefill-decode disaggregation：prefill 和 decode 分离调度，避免 MoE 混合调度干扰；
Global L3 KV Cache Pool：分布式全局 KV cache，通过 group-level rollout scheduling 提高 prefix cache hit rate，减少多轮 agent 交互中的重复 prefilling。

这背后的大逻辑是：agent RL 的成本瓶颈不只是训练 forward/backward，也包括海量 rollout generation。没有推理系统优化，RL scaling 很容易被 rollout 吞吐卡死。

#9. Agentic Mechanism：Interleaved Thinking

M2.7 报告中，interleaved thinking 是 agent 行为建模的核心机制。

Figure 7：No thinking、extended thinking 与 interleaved thinking 的对比。M2 采用 Plan-Act-Reflect 风格。 — Figure 7：Interleaved thinking

#9.1 三种模式的差别

可以把工具使用中的思考方式分成三类：

#No Thinking

模型基本直接调用工具，中间缺少显式规划和反思。

Tool call → observation → tool call → observation → final

优点是短，缺点是复杂任务容易乱撞。

#Extended Thinking

模型先写一大段 thinking，再开始调用工具。

long thinking → tool call → observation → tool call → final

这比 no thinking 好，但问题是：很多关键信息只有工具调用后才知道。前置思考无法根据中途观察实时修正。

#Interleaved Thinking

模型在每轮工具调用前后都保留和更新 reasoning state：

thinking → action → observation → thinking → action → observation → ... → final

报告形式化为：

\tau = (r_1, a_1, o_1, r_2, a_2, o_2, ..., r_T, a_T, o_T)

每个 reasoning segment 都条件于之前的 reasoning、action、observation，因此模型能更新假设、修计划、解释异常。

#9.2 Reasoning state persistence 是关键

M2 的一个重要选择是：把每一轮模型输出中的 thinking blocks 也追加到历史中，作为下一轮上下文。

如果把历史 thinking blocks 丢掉，模型每轮都要重新推导上下文、约束和中间结论，容易 state drift。报告称他们做了 ablation，保留 reasoning state 在 deep search 和 software engineering 等长程任务上收益尤其明显。

这和 wenjun 最近关心的 agent 长轨迹 RL 很相关：长轨迹的问题不只是“能不能执行很多步”，而是模型能不能在很多步之间保持可更新的内部工作状态。Interleaved thinking 是一种显式文本形态的工作状态持久化。

#10. Self-Evolution：模型参与改进自己的训练和 scaffold

报告最有未来感的一节是 self-evolution。

Figure 8：Model Iteration System 与 RL team dual-loop workflow。人类 steer/review，agent 自主读日志、调代码、更新 memory、生成报告。 — Figure 8：Self-evolution system

MiniMax 把 M2.7 的 self-evolution 描述为“early operational form”，不是说模型已经完全自主改进自身权重，而是说它已经能在模型迭代系统里承担一部分真实研发工作：

读取 docs 和 logs；
学习项目 conventions；
self-review code；
chain skills；
生成报告；
构建和更新 memory；
调试训练运行；
修改配置和 agent scaffold。

#10.1 Humans steer, models build

Figure 8A 里的 Model Iteration System 很像一个工程化 agent harness：

人类负责 configure harness、steer agent、review & decide；
agent harness 提供 hierarchical skills、persistent memory、guardrails、evaluation infra；
M2* agent 负责读日志、学规范、自审代码、串联技能、生成报告、协作。

这是一种很现实的 self-evolution 路线：不是一上来让模型完全闭环训练自己，而是先让模型嵌入研发流程，承担可验证、可回滚、可审查的迭代任务。

#10.2 RL team dual-loop workflow

Figure 8B 展示 RL 团队的双循环：

Exp Plan：人类 + AI；
Exp Dev & Run：AI autonomous；
Analyze & Report：AI autonomous；
Review & Discuss：人类 + AI；
Exp Iterate Loop：人类 + AI。

报告称，M2.7 在实践中可以承担 RL 团队 30% 到 50% 的每日迭代工作量。它还能针对内部 programming scaffold 做 100 轮自主迭代，分析失败、修改代码、评估变化，引入 loop detection 等机制，并在内部评估上带来约 30% 性能提升。

这里最值得深挖的是：

self-evolution 的起点不是“模型直接改权重”，而是“模型改产生数据、运行实验、构造 scaffold、评估行为的外部系统”。

对于 code agent / research agent，这可能是更实际的自演化路径。因为权重更新需要昂贵训练，但 scaffold、数据、环境、评测、prompt、tool policy 的迭代可以更快闭环。

#11. 实验结果：M2 → M2.5 → M2.7 的系列内演进

M2.7 与 M2.5 以及闭源前沿模型比较。报告特别强调：M2.7 只有约 10B activated parameters，却在多个 agentic benchmark 上接近甚至达到闭源 frontier 级别。

Table 4：MiniMax-M2.7 与闭源前沿模型的主结果表。 — Table 4：Main results

#11.1 Coding Agent

M2.7 的代表性结果：

Benchmark	M2.7	M2.5	备注
SWE-bench Pro	56.2	55.4	接近 Opus/Sonnet/GPT 5.4
SWE-bench Multilingual	76.5	74.1	接近最高闭源模型
Multi-SWE-bench	52.7	51.3	在表中超过列出的闭源模型
NL2Repo	39.8	26.6	大幅提升，体现 full-stack repo 数据收益
Terminal-Bench 2.0	57.0	51.7	相比 M2.5 提升明显
MLE Bench Lite	66.6	51.5	+15.1，self-evolution case study 重点

这里最值得看的是 NL2Repo、Terminal-Bench、MLE Bench Lite，因为它们更像真实 agent 工程任务，而不是单纯补丁生成。

#11.2 AppDev / Search / Office & Tools

AppDev：

VIBE-Pro：55.6，接近领先闭源模型；
HyperTask：67.6，比 M2.5 的 59.4 提升 8.2。

Search：

BrowseComp：77.8；
Wide Search：75.2；
RISE：64.3，比 M2.5 的 50.2 大幅提升。

Office & Tools：

GDPval-AA：50.0，比 M2.5 的 35.0 提升 15；
Toolathlon：46.3，比 M2.5 的 38.3 提升 8；
MEWC v2：63.3，比 M2.5 的 49.8 提升 13.5；
Finance Modeling Pro：57.0，比 M2.5 的 33.8 提升 23.2。

Office/Tools 这块提升很大，说明 M2.7 的 agentic cowork 数据和工具 reward 可能起了明显作用。

#11.3 Reasoning & Knowledge

M2.7 在 reasoning/knowledge 上也很强：

AIME 2026：94.2；
GPQA-Diamond：89.8；
IFBench：76.0；
AA-LCR：72.0；
HLE：28.0。

但这部分并不总是领先闭源模型。例如 GPT 5.4 / Gemini 3.1 Pro 在若干知识/推理指标上仍更高。报告的核心卖点不是“所有 benchmark 第一”，而是“以约 10B 激活参数在真实 agent 任务上接近 frontier”。

#11.4 系列内演进：M2 → M2.5 → M2.7

Figure 9：M2、M2.5、M2.7 在 11 个 benchmark 上的能力进展。 — Figure 9：Capability progression

Figure 9 展示从 M2 到 M2.5 再到 M2.7 的进步。最明显的提升集中在：

BrowseComp：44 → 76.3 → 77.8；
Toolathlon：18.8 → 38.3 → 46.3；
MLE-Bench Lite：40 → 51.5 → 66.6；
GDPval-AA：34 → 35 → 50；
SWE-bench Multilingual：56.5 → 74.1 → 76.5。

这说明 M2 系列能力提升主要来自后训练数据、RL 系统、agent scaffold 和 self-evolution 的共同演进，而不只是 base architecture。

#12. MLE Bench Lite case study：自演化最直接的证据

报告把 MLE Bench Lite 作为 self-evolution 的核心 case study。

设置是：让 M2.7 作为独立 ML engineer，在 MLE Bench Lite 的 22 个竞赛任务上执行标准 ML workflow。它使用一个由短期记忆和自我反馈驱动的 autonomous harness；每轮迭代后写 memory file，并进行自我批评，形成下一轮优化方向。

实验做了 3 次独立 trial，每次允许 24 小时迭代演化。

Figure 10：M2.7 在 MLE Bench Lite 迭代 trial 中 medal rate 随时间提升。 — Figure 10：MLE Bench Lite medal rate

报告中的关键结果：

最佳运行：9 枚金牌、5 枚银牌、1 枚铜牌；
平均 medal rate：66.6%；
与 Gemini 3.1 Pro 持平；
能自动调试训练 scaffold、修改配置文件，并进行数百轮迭代。

从研究角度看，这个 case 的意义不只在 medal rate，而在它验证了一种能力组合：

读懂 ML 任务和评价指标；
写/改训练代码；
跑实验并处理报错；
从结果中总结下一步；
把经验写入短期 memory；
在多轮中持续改进。

这非常接近“self-evolving code agent”或“research agent”的最小闭环。

#13. 我怎么看这篇报告的技术路线？

#13.1 它的核心贡献是系统路线，而不是单个技巧

如果只拆单点，M2.7 的很多技术都不是第一次出现：

MoE；
MTP/speculative decoding；
full attention vs SWA；
agent SFT；
RL with process reward；
prefix cache；
agent memory；
self-improvement loops。

但这篇报告的价值在于把它们组织成一个统一路线：

低激活 MoE backbone
→ 长上下文 full attention
→ 可执行 agent 数据
→ interleaved thinking SFT
→ agent-native RL 系统 Forge
→ 推理/训练吞吐优化
→ 模型参与 scaffold / 实验迭代
→ 更强的 agentic benchmark 表现

它不是“一个模型”，更像是一套 agentic model factory。

#13.2 真正稀缺的是环境、验证和系统，不只是模型参数

M2.7 的报告反复说明 reward credibility 的重要性。对于 agent RL 来说，真正难的是：

怎么构造大规模、真实、多样的任务；
怎么自动搭建可运行环境；
怎么确保 reward 不被 hack；
怎么让 judge 评分可信；
怎么让训练系统支持任意 scaffold；
怎么处理 rollout 时长极不均匀；
怎么在长上下文里不重复浪费计算。

这些是模型公司真正的基础设施壁垒。参数规模可以被追赶，但高质量 agent data + execution environment + RL infra 的积累更难复制。

#13.3 Full attention 的选择很保守，但很现实

M2.7 明确放弃 hybrid SWA，选择 full attention。这在 192K context 下成本很高，但从 agent 质量角度是稳健选择。

这说明在 frontier agent 模型里，架构创新不一定优先于可靠性。只要稀疏 attention/linear attention 在真实长程 agent 上有不可预测的质量损失，模型厂商就会宁愿付更高计算成本，用 full attention 保证能力。

对研究来说，这也指出了一个很有价值的问题：

怎样设计真正能保住 agent 长程推理、retrieval、in-context learning、tool-state tracking 的高效 attention？

标准短 benchmark 证明不了这一点。

#13.4 Interleaved thinking 是当前 agent 的“外显工作记忆”

M2.7 保留每轮 thinking blocks，让后续回合继续看到之前推理。这本质上是把工作记忆外显成文本上下文。

它有效，但也有代价：

上下文变长；
thinking token 成本高；
reasoning trace 可能泄露或污染；
长轨迹里错误推理也会被保留；
模型可能过度依赖 verbal reasoning。

这和 latent reasoning / working memory 方向形成对照：未来是否可以把 interleaved thinking 的一部分从自然语言转成 latent state 或压缩 memory？M2.7 没有解决这个问题，但它提供了强 baseline：至少在当前工程上，保留显式 reasoning state 对 agent 很有用。

#13.5 Self-evolution 还处在 scaffold-level，而不是 weight-level

报告中的 self-evolution 很令人兴奋，但要准确理解：

它不是模型完全自主训练下一代权重；
它更多是在实验、代码、配置、scaffold、评测和 memory 层面做自动迭代；
人类仍然 steer、review、decide；
reward、环境、guardrails、evaluation infra 仍由人类/系统设计。

但这并不削弱它的重要性。相反，这可能是更现实的路径：让模型先成为模型研发流程里的高效工程师，再逐步扩大闭环范围。

#14. 和 LLM Agent / model-based RL / latent reasoning 的关系

#14.1 对 LLM Agent：agent 能力来自“模型 + 环境 + 训练系统”共同设计

M2.7 强调的不是单一 prompt scaffold，而是：

base model 架构支持长上下文和低成本激活；
SFT 教会 interleaved thinking；
RL 优化真实长轨迹；
Forge 支持黑盒/白盒 agent；
数据环境提供可验证反馈；
推理系统支持长轨迹吞吐。

这说明 agent 不是一个 wrapper，而是一种训练范式。

#14.2 对 model-based RL for LLM Agent：目前更像 environment-driven RL，不是 world-model RL

M2.7 的 RL 把工具、context management、memory、agent loop 都当 environment dynamics。这是很清晰的 agent RL 抽象。

但它还不是 wenjun 关心的那种 model-based RL / Dreamer for LLM Agent：

没有显式学习一个可 rollout 的 world model；
没有在 latent imagination 中模拟长程工具结果；
主要还是通过真实环境 rollout + reward 优化 policy。

不过，它给 model-based 方向提供了一个强现实基线：如果未来要做 LLM agent 的 world model，必须面对 M2.7 已经暴露的这些系统问题：长上下文、异步轨迹、工具状态、reward credibility、scaffold heterogeneity、训练吞吐。

#14.3 对 latent reasoning：M2.7 仍然走显式 reasoning trace 路线

M2.7 的 interleaved thinking 是显式文本 reasoning，不是 latent-space reasoning。它通过保留 thinking blocks 来维持 state persistence。

这和 RiM / Coconut 等 latent reasoning 工作形成有趣对比：

M2.7：用自然语言 thinking 作为可审计、可训练、可持久化的外显工作记忆；
latent reasoning：希望把部分推理移到 hidden states / memory blocks / continuous thoughts 中，降低延迟和语言负担。

未来一个很自然的问题是：能不能把二者结合？例如：

agent 关键决策点保留可读 thinking；
高频局部计算用 latent memory；
长轨迹历史用 learned compression；
world-model imagination 在 latent space 中进行；
最终只把必要的 reasoning trace 外显给人类和 verifier。

M2.7 的报告没有走这条路，但它把“agent 长轨迹推理需要持久状态”这个需求讲得非常清楚。

#15. 局限与需要谨慎的地方

#15.1 很多关键细节仍是高层描述

报告覆盖面很广，但很多细节没有完全展开，例如：

数据规模、过滤阈值、各 domain mixing ratio；
reward 模型训练和可信度评估；
CISPO 与其他 RL 方法的系统性对比；
Windowed FIFO / prefix tree merging 的实际集群指标；
MTP speculative decoding 的 acceptance rate 和速度收益；
self-evolution 中失败案例和安全边界。

作为技术报告，它展示路线和结果，但很多复现细节仍不充分。

#15.2 Benchmark scaffold 公平性仍需外部验证

Table 4 中很多 benchmark 是在作者 scaffold 下评测的，报告也说明各模型共享 scaffold 和工具环境。但 agent benchmark 对 scaffold、工具、prompt、采样参数非常敏感。闭源模型的真实最佳表现可能依赖各自最佳 agent harness。

所以这些结果适合看趋势和能力区间，不宜过度解读为绝对排名。

#15.3 Reward hacking 和 judge bias 仍是长期风险

报告大量使用 rubric-based judge、Agent-as-a-Verifier、teacher model distillation。它们能扩展数据规模，但也带来：

judge 偏差；
reward hacking；
teacher model 风格同质化；
任务合成分布偏移；
evidence checking 不彻底。

M2.7 强调 reward credibility，但如何系统证明 reward 不被利用，仍是 agent RL 未来的核心问题。

#15.4 Self-evolution 需要人类决策闭环

M2.7 能承担 30%-50% 日常迭代工作量很强，但目前仍是 human-steered / human-reviewed。真正高风险的模型训练方向、数据策略、发布决策，仍需要人类把关。

这意味着 self-evolution 的短期形态更像“模型研发自动化”，而不是完全 autonomous AGI research loop。

#16. 总结：M2.7 的启发是什么？

MiniMax-M2.7 的技术报告传达了一个非常清晰的判断：

下一阶段模型能力竞争，不只是 base model 参数和 benchmark，而是围绕 agent 任务的完整生产系统竞争。

它的关键启发可以概括为六点：

小激活 MoE 是长轨迹 agent 的成本底座：10B activated 级别如果能接近 frontier，agent 推理成本会更可控。
长上下文质量比上下文长度数字更重要：M2 选择 full attention，说明复杂 agent 对 attention coverage 很敏感。
可执行环境 + 高可信 reward 是 agent RL 的核心资产：SWE、AppDev、Terminal、Search、Office 都围绕验证构造。
训练系统必须 agent-native：Forge 支持黑盒/白盒 agent、异步 rollout、Windowed FIFO、prefix tree merging，这是 agent RL scale 的前提。
interleaved thinking 是当前可行的 agent 工作记忆机制：保留 reasoning state 可以显著改善长程任务。
self-evolution 会先发生在 scaffold / data / eval / experiment loop 层面：模型先成为研发流程里的自动工程师，再逐步接近更强闭环。

对 wenjun 当前关心的研究方向来说，M2.7 最值得继续追问的不是“怎么复刻这个模型”，而是：

如果 agent RL 的瓶颈是长轨迹真实环境 rollout，能不能用 learned world model 做更便宜的 imagined rollout？
如果 interleaved thinking 的成本太高，能不能训练 latent working memory 来承载部分 reasoning state？
如果 self-evolution 主要发生在 scaffold 层，怎样设计可验证、可积累、可迁移的 agent memory 和 skill system？
如果 reward credibility 是核心，怎样让 verifier 从 task-specific scripts 走向可泛化的环境理解和结果审计？

MiniMax-M2.7 给出的答案是工程化、系统化的：先把真实 agent 任务跑起来，给它们环境、奖励、训练系统和自我迭代流程。未来更基础的范式突破，很可能就发生在这些系统瓶颈之上。