★★★★★ · 主题归档 · 2026-06-04
调研“把显式思考过程替换成统一 token,让模型表面输出空白思考、内部完成计算”这一想法的可行性、已有工作和研究机会。
★★★★★ · 论文精读 · 2026-06-01
详解 MiniMax-M2.7 技术报告:从 229.9B 总参数/9.8B 激活参数的 MoE 架构,到 192K 长上下文、MTP 推测解码、agentic 数据管线、Forge 强化学习系统、交错思考与自演化能力,理解“mini activations, max real-world intelligence”背后的系统路线。
★★★★★ · 论文精读 · 2026-06-01
详解 RiM 如何用固定 memory blocks 替代自回归生成的思维链,把中间推理从“说出来”变成“存在工作记忆里”,并在低延迟下取得比 Coconut 更好的数学推理表现。
★★★★★ · 论文精读 · 2026-05-26
解读 Microsoft Research 论文 ECHO:把终端环境返回的 stdout、stderr、日志、文件内容等 observation token 也纳入训练损失,让失败轨迹也产生密集监督,从而在不增加 rollout 的情况下提升 terminal agent 的 RL 效率。
★★★★★ · 论文精读 · 2026-05-24
解读 arXiv:2605.20613 HRM-Text:用分层递归架构、任务完成目标和 PrefixLM,把 1B 模型从零训练的门槛压到 40B tokens / 约 1500 美元量级。